搜索技术 | 学步园

搜索引擎算法研究专题六：HITS算法

2017年12月19日 ⁄ 搜索技术 ⁄ 共 1240字 ⁄ 评论关闭

HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。该算法与查询相关。　　用HITS算法评估网页质量，可得到内容权威度(Authority)和链接权威度(Hub)。内容权威度与网页自身直接提供内容信息的质量相关，网页被引用得越多，其内容权威度越高;而链接权威度与网页提供的超链接的质量相关，引用内容质量高的网页越多，网页的链接权威度越高。　　一个好中心网页应该指向很多权威性...

阅读全文

搜索引擎算法研究专题五：TF-IDF详解

2017年12月19日 ⁄ 搜索技术 ⁄ 共 1396字 ⁄ 评论关闭

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还...

阅读全文

搜索引擎算法研究专题七：Hilltop算法

2017年12月19日 ⁄ 搜索技术 ⁄ 共 1256字 ⁄ 评论关闭

HillTop也是搜索引擎结果排序的专利，是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化，但变化最大的一次也就是2003年的基于HillTop算法的优化。　　HillTop算法的指导思想和PageRank的一致，都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大：即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。B...

阅读全文

搜索引擎点击日志聚类实现相关搜索

2017年12月14日 ⁄ 搜索技术 ⁄ 共 1861字 ⁄ 评论关闭

组里经常招实习生，在技术问题问得差不多的时候，我经常会问他们一个问题：‘百度的相关搜索，你会如何设计实现？’ 主要想看下实习生会有哪些思路，看看思路是否广，方法是否多，没有啥方法的话，我会提示下，看他是否能够一些思路。其实各大搜索引擎的‘相关搜索‘ 虽然涉及到的细节会比较多，包括如何权衡点击，用户体验，收入之间的关系等细节，主要的挖掘算法还是比较类似的。从数据上来说，基本上围绕着网民搜索...

阅读全文

百度搜索引擎变现策略指标体系

2017年12月14日 ⁄ 搜索技术 ⁄ 共 6400字 ⁄ 评论关闭

下文就百度商业变现的指标体系进行概要描述，并针对一个类似于百度LBS系统的变现思路，阐述一个商业系统变现策略指标体系的建立过程。为什么需要商业变现策略指标体系一般情况下，一个互联网产品，或是一个移动端产品在发展前期，主要会关注流量及用户量的增长。当流量，用户量做到一定程度时，就会考虑商业变现。例如今日头条，美丽说，高德地图这样的产品现在都开始商业化变现。而要从变现效果，效率衡量整个系统，以及...

阅读全文

epoll机制在搜索引擎spider中的应用

2017年12月14日 ⁄ 搜索技术 ⁄ 共 3960字 ⁄ 评论关闭

本文将介绍epoll的概念，原理，优点，及使用接口，同时结合作者在搜索引擎spider开发中epoll使用方式的代码向大家具体介绍epoll的使用方式。 P.S. 笔者08年曾有使用epoll编写未考虑压力控制的crawler，将国内著名票务网站压垮并在boss的带领下登门道歉的经历：）足见epoll的强悍! epoll是什么按照man帮助中的说明，epoll是为了高性能处理处理文件句柄而改进的poll机制，和其类似的功能是select调用。epoll提供相对简单...

阅读全文

设计MP3搜索引擎

2017年12月12日 ⁄ 搜索技术 ⁄ 共 1349字 ⁄ 评论关闭

（百度）假设一个 mp3 搜索引擎收录了 2^24 首歌曲，并记录了可收听这些歌曲的 2^30 条 URL，但每首歌的 URL 不超过 2^10 个。系统会定期检查这些 URL，如果一个 URL 不可用则不出现在搜索结果中。现在歌曲名和 URL 分别通过整型的 SONG_ID 和 URL_ID 唯一确定。对该系统有如下需求： 1) 通过 SONG_ID 搜索一首歌的 URL_ID，给出 URL_ID 计数和列表 2) 给定一个 SONG_ID，为其添加一个新的URL_ID 3) 添加一个新的 SONG_ID 4) ...

阅读全文

推荐：搜索引擎零距离——基于Ruby+Java搜索引擎原理与实现

2017年12月08日 ⁄ 搜索技术 ⁄ 共 63字 ⁄ 评论关闭

今天在书店看到一本书：搜索引擎零距离——基于Ruby+Java搜索引擎原理与实现翻了一下，讲得比较系统一点，推荐给大家看一下。

阅读全文

搜索引擎关键字热度估算查询

2017年12月02日 ⁄ 搜索技术 ⁄ 共 208字 ⁄ 评论关闭

百度google关键字热度估算查询　　百度关键字查询工具，百度指数，关键词数据用曲线图和曲面图形式展现。　　http://index.baidu.com　　百度指数查询　　http://baidu.hrzzz.com http://index.baidu.com/　　google关键词搜索量查询工具最新地址　　https://adwords.google.com/select/KeywordToolExternal

阅读全文

学步园

搜索引擎算法研究专题六：HITS算法

搜索引擎算法研究专题五：TF-IDF详解

搜索引擎算法研究专题七：Hilltop算法

搜索引擎点击日志聚类实现相关搜索

百度搜索引擎变现策略指标体系

epoll机制在搜索引擎spider中的应用

设计MP3搜索引擎

推荐一本关于搜索引擎的书

推荐：搜索引擎零距离——基于Ruby+Java搜索引擎原理与实现

搜索引擎关键字热度估算查询

书签

最新文章New

本站推荐

返回首页