现在的位置: 首页 > 综合 > 正文

搜索引擎–基于Django/Scrapy/ElasticSearch的搜索引擎的实现

2013年01月11日 ⁄ 综合 ⁄ 共 560字 ⁄ 字号 评论关闭

  • 主机环境:Ubuntu 13.04
  • Python版本:2.7.4
  • Django版本:1.5.4
  • Scrapy版本:0.18.2
  • ElasticSearch版本:0.90.5
原创作品,转载请标明:http://blog.yanming8.cn/archives/138

闲来无聊,查看了相关搜索引擎的基本知识,经过搜集资料,了解了搜索引擎所需要的基本子系统,爬取子系统,索引服务子系统,Web请求和应答子系统。然后经过学习基本的开源框架文档,集成的项目已经PUSH到GitHub

首先查看基于开源的Scrapy爬虫框架编写的一个爬虫,爬取校园网的内容(主要是免流量)

01 #!/usr/bin/env python
02 #-*- coding:utf-8 -*-
03 #from urlparse import urljoin
04 from scrapy.utils.url import urljoin_rfc
05 from scrapy.spider import BaseSpider
06 from scrapy.selector import HtmlXPathSelector
07 from scrapy.http import Request
08  
09 from scrapy.exceptions import DropItem
10  
11 from 

抱歉!评论已关闭.