转自新河南网的空间
成搜索引擎从
1.网页下载,
2.文本分析,
3.索引生成,
4.索引存储,
5.信息检索 等各个层面的应用。
讨论网站:http://www.chengshibianyuan.cn
一个搜索引擎的好坏的评价标准:
1.相关性
2.数据量
3.查全率
4.相应速度
5.更新速度
互联网搜索引擎的五个主要环节,系统主要模块包括
1.网页信息的抓取;
1.深度优先搜集策略
2.IP段扫描搜索策略
3.广度优先搜集策略
2.网页内容的分析;
1....
阅读全文
【转】百度和Google搜索引擎收录网站区别
WWW.DBIT.CN 2008-10-22 8:30:59 来源:东北IT网 编辑:叶子
根据搜索引擎当前的发展情况比较和分析一下百度和Google这两大搜索引擎在收录网站方面的区别。
首页规则
搜索引擎的索引更新速度是衡量搜索质量的一个重要的参数,对于大型网站(比如门户新闻网站)以及其他更新量大的网站,百度和Google的索引速度都很快,基本上都能做到当...
阅读全文
主要内容:对通用搜索引擎的查询推荐技术的方法、评价进行了总结
具体内容:
“查询推荐”的不同英文叫法:Query Suggestion、Term Suggestion、Query Recommendation、Query Substitution、Query Rewriting
查询推荐的任务:找出和用户查询相似的query,以便更好地表达用户查询意图,供用户便捷输入
三种技术方法:
1. 基于文档的方法:通过处理query搜索出来的文档,以此作为反馈,进一步理解用户意图,扩充query
(1)全...
阅读全文
根据潜在客户或目标用户在搜索引擎中找到你的网站时输入的语句,产生了关键字 (Keywords)的概念,这不仅是搜索引擎优化的核心,也是整个搜索引擎营销都必须围绕的核心
关键字的选择
首先确定你的核心关键字,再围绕核心关键字进行排列组合产生关键词组或短句。对企业、商家而言,核心关键字就是他们的经营范围,如产品/服务名称、行业定位,以及企业名称或品牌名称等。总结起来,选择关键字有以下技巧:
1、站在客户的角...
阅读全文
一般的网页设计都由网页设计师完成。设计师设计网站往往仅从美观、创意和易用的角度考虑,这对于一个期望获得搜索引擎排名优秀的商业网站来说,已经远远不够了,网站策划人员至少应该为设计师递交一份需求备忘录,提醒在设计中需要配合和注意的环节。
目录结构和URL
URL是统一资源定位,即每个网页的网址、路径。网站文件的目录结构直接体现于URL。清晰简短的目录结构和规范的命名不仅有利于用户体验和网址传播,更是搜索引...
阅读全文
google的秘密入口
一.大家试过没有,使用google,如果加用了超级代理,会有多十倍的东东可搜…
二.下面是google的一些秘密入口 http://www.google.com/microsoft 微软风格的入口 http://www.google.com/mac MAC风格的入口 http://www.google.com/linux Linux风格的入口 http://www.google.com/bsd FreeBSD风格的入口 Google有各种语言的版本,下面这些语言可能实在是稀罕了点儿 ...
阅读全文
关键字:垂直搜索引擎中文分词 nutch tomcat linux
1.说明
建立简单的垂直搜索引擎。
通过实际操作信息搜索软件,环境配置,了解主要模块的构成,及交互方式。通过修改搜索软件,了解软件架构,接口及插件等运作方式。
通过对分词部分的修改,了解了分词原理及主流的中文分词技术及其应用。
2.目标
利用信息检索工具,搜索http://beijing.cncn.com/网站中的景点介绍网页,对其进行索引,使用户可通过关键字查询,快速定位...
阅读全文
GOOGLE网站登录 http://www.google.com/intl/zh-CN/add_url.html
百度网站登录 http://www.baidu.com/search/url_submit.html
Yahoo 网站登录>http://search.help.cn.yahoo.com/h4_4.html
Live网站登录http://search.msn.com/docs/submit.aspx?FORM=WSDD2
Dmoz 网站登录 http://www.dmoz.com/World/Chinese_Simplified
Coodir网站目录登录http://www.coodir.com/accounts/addsite.asp
Alexa 网站登录 http://www.alexa...
阅读全文
1.引言
万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。
传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的...
阅读全文