现在位置: 首页 > 搜索技术 > 文章
2014年12月14日 搜索技术 ⁄ 共 1442字 评论关闭
■ 全文搜索引擎   在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。   另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2...
阅读全文
2014年12月03日 搜索技术 ⁄ 共 14208字 评论关闭
http://www.vifir.com/html/20080827/1703937.html 一个例子学懂搜索引擎(lucene) 来源:javaeye 作者: phz50 2008-08-27 16:44:40.0网友评论:0条 点击:8996   其实,lucene是一个很容易上手的搜索引擎框架,传统的搜索引擎,涉及到爬虫,也就是爬取网页,然后对网页进行加工,也就是索引,最后用于搜索,lucene这个框架可以很方便的帮你做到后面两个步骤,也就是索引和搜索!本文尝试通过一个例子,使大家掌握lucene...
阅读全文
2014年11月23日 搜索技术 ⁄ 共 1138字 评论关闭
       随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,百度,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。       网络爬虫是一个自动提取网页的程序(网络蜘蛛),它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得...
阅读全文
2014年11月22日 搜索技术 ⁄ 共 22087字 评论关闭
系统架构     互联网在近10年的得到飞速发展,互联网正在逐渐深入人们的生活,改变人们的生活。互联网经济也经历了风风雨雨,从缓慢起步到急速膨胀,从泡沫破灭到逐步回暖;从“网络广告”到“拇指经济”,从“网络游戏”到“搜索力经济”。目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮。越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子,其中许多人会选择拥有自己的搜索引擎。国内著名搜索引擎公司百度...
阅读全文
2014年11月20日 搜索技术 ⁄ 共 10456字 评论关闭
 转自新河南网的空间 成搜索引擎从 1.网页下载, 2.文本分析, 3.索引生成, 4.索引存储, 5.信息检索 等各个层面的应用。 讨论网站:http://www.chengshibianyuan.cn 一个搜索引擎的好坏的评价标准: 1.相关性 2.数据量 3.查全率 4.相应速度 5.更新速度 互联网搜索引擎的五个主要环节,系统主要模块包括 1.网页信息的抓取;    1.深度优先搜集策略    2.IP段扫描搜索策略    3.广度优先搜集策略 2.网页内容的分析;    1....
阅读全文
2014年11月18日 搜索技术 ⁄ 共 1068字 评论关闭
【转】百度和Google搜索引擎收录网站区别 WWW.DBIT.CN 2008-10-22 8:30:59 来源:东北IT网 编辑:叶子     根据搜索引擎当前的发展情况比较和分析一下百度和Google这两大搜索引擎在收录网站方面的区别。   首页规则   搜索引擎的索引更新速度是衡量搜索质量的一个重要的参数,对于大型网站(比如门户新闻网站)以及其他更新量大的网站,百度和Google的索引速度都很快,基本上都能做到当...
阅读全文
主要内容:对通用搜索引擎的查询推荐技术的方法、评价进行了总结 具体内容: “查询推荐”的不同英文叫法:Query Suggestion、Term Suggestion、Query Recommendation、Query Substitution、Query Rewriting 查询推荐的任务:找出和用户查询相似的query,以便更好地表达用户查询意图,供用户便捷输入 三种技术方法: 1. 基于文档的方法:通过处理query搜索出来的文档,以此作为反馈,进一步理解用户意图,扩充query (1)全...
阅读全文
2014年11月14日 搜索技术 ⁄ 共 2436字 评论关闭
根据潜在客户或目标用户在搜索引擎中找到你的网站时输入的语句,产生了关键字 (Keywords)的概念,这不仅是搜索引擎优化的核心,也是整个搜索引擎营销都必须围绕的核心 关键字的选择 首先确定你的核心关键字,再围绕核心关键字进行排列组合产生关键词组或短句。对企业、商家而言,核心关键字就是他们的经营范围,如产品/服务名称、行业定位,以及企业名称或品牌名称等。总结起来,选择关键字有以下技巧: 1、站在客户的角...
阅读全文
2014年11月14日 搜索技术 ⁄ 共 5387字 评论关闭
一般的网页设计都由网页设计师完成。设计师设计网站往往仅从美观、创意和易用的角度考虑,这对于一个期望获得搜索引擎排名优秀的商业网站来说,已经远远不够了,网站策划人员至少应该为设计师递交一份需求备忘录,提醒在设计中需要配合和注意的环节。 目录结构和URL URL是统一资源定位,即每个网页的网址、路径。网站文件的目录结构直接体现于URL。清晰简短的目录结构和规范的命名不仅有利于用户体验和网址传播,更是搜索引...
阅读全文
2014年11月09日 搜索技术 ⁄ 共 14556字 评论关闭
google的秘密入口 一.大家试过没有,使用google,如果加用了超级代理,会有多十倍的东东可搜… 二.下面是google的一些秘密入口  http://www.google.com/microsoft  微软风格的入口    http://www.google.com/mac  MAC风格的入口    http://www.google.com/linux  Linux风格的入口    http://www.google.com/bsd  FreeBSD风格的入口    Google有各种语言的版本,下面这些语言可能实在是稀罕了点儿 ...
阅读全文