现在位置: 首页 > 搜索技术 > 文章
2017年12月19日 搜索技术 ⁄ 共 1240字 评论关闭
HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。该算法与查询相关。   用HITS算法评估网页质量,可得到内容权威度(Authority)和链接权威度(Hub)。内容权威度与网页自身直接提供内容信息的质量相关,网页被引用得越多,其内容权威度越高;而链接权威度与网页提供的超链接的质量相关,引用内容质量高的网页越多,网页的链接权威度越高。   一个好中心网页应该指向很多权威性...
阅读全文
2017年12月19日 搜索技术 ⁄ 共 1396字 评论关闭
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还...
阅读全文
2017年12月19日 搜索技术 ⁄ 共 1256字 评论关闭
HillTop也是搜索引擎结果排序的专利,是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化,但变化最大的一次也就是2003年的基于HillTop算法的优化。   HillTop算法的指导思想和PageRank的一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。B...
阅读全文
2017年12月14日 搜索技术 ⁄ 共 1861字 评论关闭
组里经常招实习生, 在技术问题问得差不多的时候, 我经常会问他们一个问题:‘百度的相关搜索,你会如何设计实现?’   主要想看下实习生会有哪些思路,看看思路是否广,方法是否多, 没有啥方法的话, 我会提示下,看他是否能够一些思路。 其实各大搜索引擎的‘相关搜索‘ 虽然涉及到的细节会比较多, 包括如何权衡点击,用户体验,收入之间的关系等细节,主要的挖掘算法还是比较类似的。 从数据上来说,基本上围绕着网民搜索...
阅读全文
2017年12月14日 搜索技术 ⁄ 共 6400字 评论关闭
下文就百度商业变现的指标体系进行概要描述,并针对一个类似于百度LBS系统的变现思路,阐述一个商业系统变现策略指标体系的建立过程。 为什么需要商业变现策略指标体系 一般情况下,一个互联网产品,或是一个移动端产品在发展前期,主要会关注流量及用户量的增长。当流量,用户量做到一定程度时,就会考虑商业变现。例如今日头条,美丽说,高德地图这样的产品现在都开始商业化变现。而要从变现效果,效率衡量整个系统,以及...
阅读全文
2017年12月14日 搜索技术 ⁄ 共 3960字 评论关闭
本文将介绍epoll的概念,原理, 优点,及使用接口,同时结合作者在搜索引擎spider开发中epoll使用方式的代码向大家具体介绍epoll的使用方式。 P.S. 笔者08年曾有使用epoll编写未考虑压力控制的crawler,将国内著名票务网站压垮并在boss的带领下登门道歉的经历:) 足见epoll的强悍! epoll是什么 按照man帮助中的说明,epoll是为了高性能处理处理文件句柄而改进的poll机制, 和其类似的功能是select调用。epoll提供相对简单...
阅读全文
2017年12月12日 搜索技术 ⁄ 共 1349字 评论关闭
(百度)假设一个 mp3 搜索引擎收录了 2^24 首歌曲,并记录了可收听这些歌曲的 2^30 条 URL,但每首歌的 URL 不超过 2^10 个。系统会定期检查这些 URL,如果一个 URL 不可用则不出现在搜索结果中。现在歌曲名和 URL 分别通过整型的 SONG_ID 和 URL_ID 唯一确定。对该系统有如下需求: 1) 通过 SONG_ID 搜索一首歌的 URL_ID,给出 URL_ID 计数和列表 2) 给定一个 SONG_ID,为其添加一个新的URL_ID 3) 添加一个新的 SONG_ID 4) ...
阅读全文
2017年12月08日 搜索技术 ⁄ 共 100字 评论关闭
今天在书店看到一本关于搜索引擎的书《走进搜索引擎》作者是梁斌   书中简明扼要的介绍了一些基本知识。相对是比较全面的研究,作为初学者绝对适用。   比《开发自己的搜索引擎》一书那是要好上百倍。大家不妨一读。  
阅读全文
今天在书店看到一本书:搜索引擎零距离——基于Ruby+Java搜索引擎原理与实现 翻了一下,讲得比较系统一点,推荐给大家看一下。
阅读全文
2017年12月02日 搜索技术 ⁄ 共 208字 评论关闭
百度google关键字热度估算查询  百度关键字查询工具,百度指数,关键词数据用曲线图和曲面图形式展现。  http://index.baidu.com  百度指数查询   http://baidu.hrzzz.com http://index.baidu.com/  google关键词搜索量查询工具最新地址  https://adwords.google.com/select/KeywordToolExternal
阅读全文