现在位置: 首页 > 搜索技术 > 文章
2019年06月04日 搜索技术 ⁄ 共 3870字 评论关闭
文章目录 作者:Winter 工程师 搜索引擎,上网的人基本上都不陌生了,CNNIC的第17次《互联网调查报告》显示,使用搜索引擎服务的网民,仅次于电子邮件。中文分词,估计了解的人并不多,毕竟太技术,太底层。但中文分词是中文搜索引擎系统中非常重要的模块,这里之所以强调是中文搜索引擎,是针对英文搜索引擎来讲,因为对于英文来说,空格代表词和词之间的分隔,也...
阅读全文
2019年06月04日 搜索技术 ⁄ 共 1363字 评论关闭
现在网上有很多种分词方法。要精确必然损失性能,要性能那么精确度必然下降。 比如有句话: "我是中国人" 看看这句话有多少种划分 我 我是 我是中 我是中国 我是中国人   是 是中 是中国 是中国人     中 中国 中国人       国 国人         人 按照灰色区域划分,无疑是正确的。但是从全部分词划分上来说,分词的分法达到了 2^n种。 在我见过的分发中,很多种都是大同小异。而很多种都提到了一个概念——最大词匹...
阅读全文
        对索引网页库信息进行预处理包括网页分析和建立倒排文件索引两个部分。中文自动分词是网页分析的前提。文档由被称作特征项的索引词(词或者字)组成,网页分析是将一个文档表示为特征项的过程。在提取特征项时,中文又面临了与英文处理不同的问题。中文信息和英文信息有一个明显的差别:英语单词之间用空格分隔;而在中文文本中,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成的,并且语句是...
阅读全文
2019年06月04日 搜索技术 ⁄ 共 4384字 评论关闭
在《“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系》中我们提及到了中文分词,以及《双数组Trie(Double Array Trie)实现原理的一点剖析》中阐述了高效率中文分词的实现。接下来让我们抛开双数组Trie的那些公式,从概念上来了解一下分词技术,因为英文分词相对比较简单,这里主要来了解的是中文分词。 英文是以词为单位的,词与词之间上靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述...
阅读全文
2019年06月04日 搜索技术 ⁄ 共 4618字 评论关闭
     信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。   搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世...
阅读全文
2019年03月15日 搜索技术 ⁄ 共 2019字 评论关闭
这个信息相当繁杂的互联网时代,我们已经学会了如何利用搜索引擎这个强大的利器来找寻目标信息,比如你会在Google上搜索情人节如何讨女朋友欢心,你也会在百度上寻找正规的整容医疗机构(尽管有很大一部分广告骗子)。那么如果在你自己开发的网站系统中需要能让用户搜索一些重要的信息,并且能以结构化的结果展现给用户,下面分享的这9款Java搜索引擎框架或许就可以帮助到你了。 1、Java 全文搜索引擎框架 Lucene 毫无疑问...
阅读全文
2018年11月06日 搜索技术 ⁄ 共 7187字 评论关闭
引自 陈运文 《怎样量化评价搜索引擎的结果质量》 前言 搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。 搜索引擎结果的好坏与否,体现在业界所称的在相关性(Relevance)上。相关性的定义包括狭义和广义两方面,狭义的解释是:检索结果和用户查询的相关程度。而从广义的层面,相关性可以理解为为用户查...
阅读全文
2018年08月08日 搜索技术 ⁄ 共 845字 评论关闭
     垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。   垂直搜索引擎和 普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单 位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以...
阅读全文
2018年07月27日 搜索技术 ⁄ 共 20036字 评论关闭
来源:csdn 作者:蝶澈 2007-12-25 22:36 这篇文章中,介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文 和超连接的数据库至少包含24'000'000个网页。我们可以从http://google.stanford.edu/ 下载。   设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索...
阅读全文
2018年05月25日 搜索技术 ⁄ 共 308字 评论关闭
        搜索引擎优化(Search Engine Optimization,简称SEO)是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。由于不少研究发现,搜索引擎的用户往往只会留意搜索结果最前面的几个条目,所以不少网站都希望通过各种形式来影响搜索引击的排序。当中尤以各种依靠广告维生的网站为甚。所谓“针对搜索引擎作最佳化的处理”,是指为了要让网站更容易被搜索引擎接受。深刻理解是:通过SEO这样一套基于搜索...
阅读全文