现在的位置: 首页 > 搜索技术 > 正文

什么是搜索引擎的中文分词技术

2019年12月31日 搜索技术 ⁄ 共 971字 ⁄ 字号 评论关闭

  尽管在国外搜索引擎技术早就开始研究。但在国内还是陆续涌现出优秀的搜索引擎,像百度等。眼下在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这种局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同。这当中对于计算机涉及的技术就是中文分词。

什么是中文分词:

  众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位。句子中全部的字连起来才干描写叙述一个意思。比如。英文句子Iamastudent。用中文则为:“我是一个学生”。计算机能够非常简单通过空格知道student是一个单词,可是不能非常easy明确“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是一个学生。

中文分词和搜索引擎:

  中文分词究竟对搜索引擎有多大影响?对于搜索引擎来说,最重要的并非找到全部结果,由于在上百亿的网页中找到全部结果没有太多的意义。没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,经常直接影响到对搜索结果的相关度排序。笔者近期替朋友找一些关于日本和服的资料。在搜索引擎上输入“和服”。得到的结果就发现了非常多问题。以下就以这个样例来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做測试,測试方法是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为关键词进行搜索:

  在Google上输入“和服”搜索全部简体中文网页。总共结果507,000条,前20条结果中有14条与和服一点关系都没有。

  在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。

  在中搜上输入“和服”搜索网页。总共结果为26,917条,前20条结果都是与和服相关的网页。

  这次搜索引擎结果中的错误。就是因为分词的不准确所造成的。通过笔者的了解,Google的中文分词技术採用的是美国一家名BasisTechnology的公司提供的中文分词技术。百度使用的是自己公司开发的分词技术。

  结束语:以上就是关于什么是搜索引擎的中文分词技术的全部内容,更多内容请关注学步园。

抱歉!评论已关闭.