现在位置: 首页 > 搜索技术 > 文章
2018年01月10日 搜索技术 ⁄ 共 456字 评论关闭
  学SEO的好好看看吧。   robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 在进行网站优化的时候,经常会使用robots文件把一些内容不想让蜘蛛抓取,以前写过一篇网站优化robots.txt文件的运用, 现在写这编文章在补充一点点知识! 搜索引擎通过一种爬虫spider程序(又称搜索蜘蛛、robot、搜索机器人等),自动...
阅读全文
2018年01月09日 搜索技术 ⁄ 共 613字 评论关闭
利用Lucene.net搜索引擎进行多条件搜索的做法 1 联合两个索引查询,已解决: IndexSearcher[] searchers = new IndexSearcher[2];      searchers[0] = new IndexSearcher(m_indexpath); searchers[1] = new IndexSearcher(m_outindexpath); MultiSearcher multiSearcher = new MultiSearcher(searchers); 2,还有个进行多条件搜索 and 与 or 的操作———— 用 MultiFieldQueryParser 建议重新封装 MultiFieldQueryPar...
阅读全文
2018年01月08日 搜索技术 ⁄ 共 41字 评论关闭
转载链接:http://www.itlearner.com/article/980
阅读全文
 一、传统搜索引擎排序算法概述   1. 1 搜索引擎排序算法概述   搜索引擎查询的结果是按照一定的规则排序供用户查看, 这种规则就是搜索引擎排序算法. 目前几种比较通用的搜索引擎排序算法有Direct Hit 排序算法、PageRank、排名竞价服务和词频位置加权排序算法.Direct Hit 排序算法是一种动态排序算法, 搜索引擎返回的排序结果根据用户的点击和网页被浏览的时间进行变化. PageRank 是著名搜索引擎Google 使用的排序算法, ...
阅读全文
2017年12月19日 搜索技术 ⁄ 共 3038字 评论关闭
一个网页的重要性分析的算法,是根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。其最直观的意义是如果一个网页的重要性很高,则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指,则表明指向它的网页重要性也会高。指向别的网页定义为Hub值,被指向定义为Authority值。   通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的...
阅读全文
2017年12月19日 搜索技术 ⁄ 共 1009字 评论关闭
聚集索引介绍   在聚集索引中,表中各行的物理顺序与键值的逻辑(索引)顺序相同。表只能包含一个聚集索引。   如果不是聚集索引,表中各行的物理顺序与键值的逻辑顺序不匹配。聚集索引比非聚集索引有更快的数据访问速度。   聚集索引通常可加快 UPDATE 和 DELETE 操作的速度,因为这两个操作需要读取大量的数据。创建或修改聚集索引可能要花很长时间,因为执行这两个操作时要在磁盘上对表的行进行重组。   可考虑将聚集...
阅读全文
2017年12月19日 搜索技术 ⁄ 共 2490字 评论关闭
Google的Lawrence Page和Sergey Brin为PageRank(PR)算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型,就是用户不关心网页内容而随机点击链接。   网页的PageRank值决定了随机访问到这个页面的概率。用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。   因此,一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。并且,阻尼系数d...
阅读全文
2017年12月19日 搜索技术 ⁄ 共 1240字 评论关闭
HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。该算法与查询相关。   用HITS算法评估网页质量,可得到内容权威度(Authority)和链接权威度(Hub)。内容权威度与网页自身直接提供内容信息的质量相关,网页被引用得越多,其内容权威度越高;而链接权威度与网页提供的超链接的质量相关,引用内容质量高的网页越多,网页的链接权威度越高。   一个好中心网页应该指向很多权威性...
阅读全文
2017年12月19日 搜索技术 ⁄ 共 1396字 评论关闭
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还...
阅读全文
2017年12月19日 搜索技术 ⁄ 共 1256字 评论关闭
HillTop也是搜索引擎结果排序的专利,是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化,但变化最大的一次也就是2003年的基于HillTop算法的优化。   HillTop算法的指导思想和PageRank的一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。B...
阅读全文