谈谈搜索技术原理与架构

现在的位置: 首页 > 搜索技术 > 正文

谈谈搜索技术原理与架构

2019年12月18日 ⁄ 搜索技术 ⁄ 共 1001字 ⁄ 字号小中大 ⁄ 评论关闭

　　搜索引擎是我们非常熟悉的互联网产品，上网都离不开搜索，毫无疑问，在pc端，是多数流量的入口。大家都会说，“有问题，百度一下”，当初百度靠这句广告语，打开了国内很大的市场。

　　曾经看过一个百度员工写的段子：“今天一个出租出司机载我去上班，一边看着百度大厦一边说，你们百度不就是个框吗，要这么多员工干啥。他说的好有道理，我竟无言以对”。那么搜索引擎背后到底是什么，到底复杂不复杂，这里为大家一一解答。本文只是简要介绍一下总体需要的原理，具体的技术原理，我会在后续的文章中深入介绍。

1.索引

　　输入一个关键词，就会出现相关的文档。如果这里有三篇文档，给一个关键词，就通过字符串匹配的方法就可以找到包含该关键词的文档，这很简单。那么如果有一百篇呢，同样对这一百篇文章逐个进行搜索即可，现代计算机对于上百篇文章的检索还是可以毫秒级的时间完成的。那么，网络上数以万计乃至上亿的文章，难道也要这样逐个搜索吗。索引就是解决搜索缓慢的方案，也就是说将每篇文章进行处理，对每一个出现的词建索引。每个词对应的列表是包含这个词的文章的列表，这被称为倒排索引。于是输入一个词，只要查找这张表，就能很快把包含这个词的文章给找出来。那如果有多个词呢，比如，在淘宝上搜索“黄色毛衣”，只要把包含“黄色”的商品和包含“毛衣”的商品求个交集。构建倒排索引是搜索引擎的基础。

2.分词

　　构建倒排索引的单位是词，词代表了语言中最基本的单位。在英文中，可以通过空格对每个词进行分开，而汉语就相对复杂了，不是通过空格分开的了，需要人通过语义进行分开。上面提到了“黄色毛衣”这个query，可以将“黄色”和“毛衣”分成两个基本的语言单位。但是，计算机来进行汉语分词就相对来说比较困难了。好在目前汉语分词技术已经非常成熟了，也有非常成熟的库进行调用，中科院，复旦等科研机构都对汉语分词技术研究得很深入。

3.排序

　　找出这些文章以后，怎么进行排序，哪篇文章靠前，哪篇文章靠后，也是个问题。我们暂且可以这样来进行排序，按照相关性来，如果搜索的query跟文档的标题一样，这个相关性就相对来说比在正文中出现这些query的文档高。如果词的顺序都一模一样，那相关性就更高了，如果一字不差，不多字也不少字，当然是相关性最高了。

　　上述几个问题，是搜索的基础。只要解决了这几个问题，稍微花几天功夫，一个计算机系的研究生，就可以把一个简单的搜索引擎构建起来了。

【上篇】Win玩游戏的时候很卡怎么办?
【下篇】计算机编程语言的分类

作者: admin

该日志由 admin 于4年前发表在搜索技术分类下，最后更新于 2019年12月18日.
转载请注明: 谈谈搜索技术原理与架构 | 学步园 +复制链接

抱歉!评论已关闭.

学步园