搜索引擎–基于Django/Scrapy/ElasticSearch的搜索引擎的实现

现在的位置: 首页 > 综合 > 正文

搜索引擎–基于Django/Scrapy/ElasticSearch的搜索引擎的实现

2013年01月11日 ⁄ 综合 ⁄ 共 560字 ⁄ 字号小中大 ⁄ 评论关闭

主机环境：Ubuntu 13.04
Python版本：2.7.4
Django版本：1.5.4
Scrapy版本：0.18.2
ElasticSearch版本：0.90.5

原创作品，转载请标明：http://blog.yanming8.cn/archives/138

闲来无聊，查看了相关搜索引擎的基本知识，经过搜集资料，了解了搜索引擎所需要的基本子系统，爬取子系统，索引服务子系统，Web请求和应答子系统。然后经过学习基本的开源框架文档，集成的项目已经PUSH到GitHub。

首先查看基于开源的Scrapy爬虫框架编写的一个爬虫，爬取校园网的内容（主要是免流量）

01
#!/usr/bin/env python

02
#-*- coding:utf-8 -*-

03
#from urlparse import urljoin

04
from scrapy.utils.url import urljoin_rfc

05
from scrapy.spider import BaseSpider

06
from scrapy.selector import HtmlXPathSelector

07
from scrapy.http import Request

08
 
09
from scrapy.exceptions import DropItem

10
 
11
from 
				返回
			
			【上篇】jmx获取MBeanServerConnection的两种方法
【下篇】今天准备重写代码			
			
					作者: salvia
				
				该日志由 salvia 于11年前发表在综合分类下，最后更新于 2013年01月11日.
转载请注明: 搜索引擎–基于Django/Scrapy/ElasticSearch的搜索引擎的实现 | 学步园 +复制链接

抱歉!评论已关闭.
书签
	招生
白云飘飘网
青岛房产网

最新文章New
								网站优化可以收获更好的收益
								robots在网页开发中起到了一定的
								SEO引擎优化可以更好的方便搜索
								Dreamweaver教程很实用，值得学习
								很多的photoshop教程值得学习，你
								编程语言很重要，特别是对于计算
								数据库非常常见，也非常实用！
								H5指的是第5代html，不同于传统企
								HTML是什么，该怎么制作？
							
本站推荐

				为什么PHP的吉祥物是一头大象

				作业的提交和监控（二）

				作业的提交和监控（一）

				Boost – Function 分析

				奇技淫巧 – C/C++ 宏自身

				模板的 SFINAE 原则

				Octopress 和 Git 的结合

				Electric-fence 介绍

web前端
数据库
编程语言
搜索技术
关于本站

	返回首页

	Copyright © 2013-2018 学步园  保留所有权利.

	软文销售 QQ客服：2265327166 （其他合作也可洽谈）
		必威体育
必威电竞