搜索技术 | 学步园

搜索引擎中网络爬虫的设计分析

2018年02月01日 ⁄ 搜索技术 ⁄ 共 1861字 ⁄ 评论关闭

搜索引擎中网络爬虫的设计分析作者：Ackarlix 下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些，网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线，其实还是要跟网络联结，否则怎么抓东西下来？那么不同的地方在哪里？ 1】网络爬虫高度可配置性。 2】网络爬虫可以解析抓到的网页里的链接 3】网络爬虫有简单的存储配置 4】网络爬虫拥有智能的根据网页更新分析功能 5】网...

阅读全文

在网页中加入baidu、google搜索引擎

2018年01月28日 ⁄ 搜索技术 ⁄ 共 1459字 ⁄ 评论关闭

以下代码是搜索指定的一个网站(www.cmfu.com)的： <div id= "search "> <form method= "get " action= "http://www.google.com/search "> <span class= "bold12 "> 用Google搜索本站： </span> <input type= "hidden " name= "hl " value= "zh-CN " /> <input type= "hidden " name= "inlang " value= "zh-CN " /> <...

阅读全文

在自己的网页中引入“Google”、“百度”搜索引擎

2018年01月28日 ⁄ 搜索技术 ⁄ 共 1590字 ⁄ 评论关闭

<html> <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> <head><script>var tmpValue="这里输入关键字";</script> </head> <body> <form method=get action="http://www.google.com/search" target="_blank"><table bgcolor="#FFFFFF"><tr><td><a href="http://www.google.com/"><img src="ht...

阅读全文

robots.txt详解蜘蛛文件

2018年01月10日 ⁄ 搜索技术 ⁄ 共 456字 ⁄ 评论关闭

学SEO的好好看看吧。 robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。在进行网站优化的时候，经常会使用robots文件把一些内容不想让蜘蛛抓取，以前写过一篇网站优化robots.txt文件的运用, 现在写这编文章在补充一点点知识！搜索引擎通过一种爬虫spider程序（又称搜索蜘蛛、robot、搜索机器人等），自动...

阅读全文

利用Lucene.net搜索引擎进行多条件搜索的做法

2018年01月09日 ⁄ 搜索技术 ⁄ 共 613字 ⁄ 评论关闭

利用Lucene.net搜索引擎进行多条件搜索的做法 1 联合两个索引查询，已解决： IndexSearcher[] searchers = new IndexSearcher[2]; 　　 searchers[0] = new IndexSearcher(m_indexpath); searchers[1] = new IndexSearcher(m_outindexpath); MultiSearcher multiSearcher = new MultiSearcher(searchers); 2，还有个进行多条件搜索 and 与 or 的操作———— 用 MultiFieldQueryParser 建议重新封装 MultiFieldQueryPar...

阅读全文

Google搜索引擎工作流程（简单介绍）

2018年01月08日 ⁄ 搜索技术 ⁄ 共 41字 ⁄ 评论关闭

转载链接：http://www.itlearner.com/article/980

阅读全文

搜索引擎算法研究专题一：基于页面分块的搜索引擎排序算法改进

2017年12月19日 ⁄ 搜索技术 ⁄ 共 2534字 ⁄ 评论关闭

　一、传统搜索引擎排序算法概述　　1. 1 搜索引擎排序算法概述　　搜索引擎查询的结果是按照一定的规则排序供用户查看, 这种规则就是搜索引擎排序算法. 目前几种比较通用的搜索引擎排序算法有Direct Hit 排序算法、PageRank、排名竞价服务和词频位置加权排序算法.Direct Hit 排序算法是一种动态排序算法, 搜索引擎返回的排序结果根据用户的点击和网页被浏览的时间进行变化. PageRank 是著名搜索引擎Google 使用的排序算法, ...

阅读全文

搜索引擎算法研究专题二：HITS算法及其衍生算法分析

2017年12月19日 ⁄ 搜索技术 ⁄ 共 3038字 ⁄ 评论关闭

一个网页的重要性分析的算法，是根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。其最直观的意义是如果一个网页的重要性很高，则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指，则表明指向它的网页重要性也会高。指向别的网页定义为Hub值,被指向定义为Authority值。　　通常HITS算法是作用在一定范围的，比如一个以程序开发为主题网页，指向另一个以程序开发为主题的...

阅读全文

搜索引擎算法研究专题三：聚集索引与非聚集索引介绍

2017年12月19日 ⁄ 搜索技术 ⁄ 共 1009字 ⁄ 评论关闭

聚集索引介绍　　在聚集索引中，表中各行的物理顺序与键值的逻辑(索引)顺序相同。表只能包含一个聚集索引。　　如果不是聚集索引，表中各行的物理顺序与键值的逻辑顺序不匹配。聚集索引比非聚集索引有更快的数据访问速度。　　聚集索引通常可加快 UPDATE 和 DELETE 操作的速度，因为这两个操作需要读取大量的数据。创建或修改聚集索引可能要花很长时间，因为执行这两个操作时要在磁盘上对表的行进行重组。　　可考虑将聚集...

阅读全文

搜索引擎算法研究专题四：随机冲浪模型介绍

2017年12月19日 ⁄ 搜索技术 ⁄ 共 2490字 ⁄ 评论关闭

Google的Lawrence Page和Sergey Brin为PageRank(PR)算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型，就是用户不关心网页内容而随机点击链接。　　网页的PageRank值决定了随机访问到这个页面的概率。用户点击页面内的链接的概率，完全由页面上链接数量的多少决定的，这也是上面PR(Ti)/C(Ti)的原因。　　因此，一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。并且，阻尼系数d...

阅读全文

学步园

搜索引擎中网络爬虫的设计分析

在网页中加入baidu、google搜索引擎

在自己的网页中引入“Google”、“百度”搜索引擎

robots.txt详解蜘蛛文件

利用Lucene.net搜索引擎进行多条件搜索的做法

Google搜索引擎工作流程（简单介绍）

搜索引擎算法研究专题一：基于页面分块的搜索引擎排序算法改进

搜索引擎算法研究专题二：HITS算法及其衍生算法分析

搜索引擎算法研究专题三：聚集索引与非聚集索引介绍

搜索引擎算法研究专题四：随机冲浪模型介绍

书签

最新文章New

本站推荐

返回首页