- 主机环境:Ubuntu 13.04
- Python版本:2.7.4
- Django版本:1.5.4
- Scrapy版本:0.18.2
- ElasticSearch版本:0.90.5
闲来无聊,查看了相关搜索引擎的基本知识,经过搜集资料,了解了搜索引擎所需要的基本子系统,爬取子系统,索引服务子系统,Web请求和应答子系统。然后经过学习基本的开源框架文档,集成的项目已经PUSH到GitHub。
首先查看基于开源的Scrapy爬虫框架编写的一个爬虫,爬取校园网的内容(主要是免流量)
01 |
#!/usr/bin/env python |
02 |
#-*- coding:utf-8 -*- |
03 |
#from urlparse import urljoin |
04 |
from scrapy.utils.url import urljoin_rfc |
05 |
from scrapy.spider import BaseSpider |
06 |
from scrapy.selector import HtmlXPathSelector |
07 |
from scrapy.http import Request |
08 |
09 |
from scrapy.exceptions import DropItem |
10 |
11 |
from
|