搜索技术 | 学步园

使用 Java 开源工具建立一个灵活的搜索引擎

2018年04月27日 ⁄ 搜索技术 ⁄ 共 7532字 ⁄ 评论关闭

基础知识 Apache Lucene 是开发搜索类应用程序时最常用的 Java 类库，我们的框架也将基于它。为了下文更好的描述，我们需要先了解一些有关 Lucene 和搜索的基础知识。注意，本文不关注索引的文件格式、分词技术等话题。什么是搜索和索引从用户的角度来看，搜索的过程是通过关键字在某种资源中寻找特定的内容的过程。而从计算机的角度来看，实现这个过程可以有两种办法。一是对所有资源逐个与关键字匹配，返回所有满足匹配...

阅读全文

搜索引擎最经典的书籍——《走进搜索引擎》（梁斌著）百度网盘免费下载

2018年04月20日 ⁄ 搜索技术 ⁄ 共 138字 ⁄ 评论关闭

最近在学习搜索引擎的一些知识，在网上下载了一本经典书籍——《走进搜索引擎》，在此和大家分享。电子书基本信息：《走进搜索引擎》梁斌著 2007年10月出版下载地址： http://pan.baidu.com/s/1jGooFn4

阅读全文

数学之美系列十七：闪光的不一定是金子谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

2018年04月15日 ⁄ 搜索技术 ⁄ 共 1394字 ⁄ 评论关闭

自从有了搜索引擎，就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的，用句俗话说，闪光的不一定是金子。搜索引擎的作弊，虽然方法很多，目的只有一个，就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站，重复地罗列各种数码相机的品牌，如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词，聪明一点的作弊...

阅读全文

毕业设计源码——搜索引擎各种版本的搜索引擎

2018年04月10日 ⁄ 搜索技术 ⁄ 共 58字 ⁄ 评论关闭

毕业设计源码——搜索引擎各种版本的搜索引擎，资源不断更新。 1.2014年1月20日更新（热）：搜索引擎源码 1.0 下载

阅读全文

scrapy安装

2018年03月22日 ⁄ 搜索技术 ⁄ 共 59字 ⁄ 评论关闭

scrapy安装 http://xuh5156.github.io/2014/06/04/scrapy_install/

阅读全文

[原创]2008年我给欧莱雅客户做的化妆品垂直搜索引擎用户网络口碑监测系统演示以及截图

2018年03月19日 ⁄ 搜索技术 ⁄ 共 1610字 ⁄ 评论关闭

口碑public praise，指用户对品牌的评价，是品牌它触点中的一些关键指标。口碑监测指标全面描述用户（广义的服户）对品牌的评价，包括产品应用消息、企业荣誉、企业公民行为、负品牌现象、论坛与博客监测五个方面。将口碑引入到品牌指数数据模型中并进行量化监测，是品牌指数系统3.1的一个新功能。在以互联网为特色的新媒体时代，我们需要做的不是需不需要在意口碑，而在于如何以数据方式监测、评估口碑效果，我们相信这...

阅读全文

开源spider一览[c#/java/c++]

2018年03月19日 ⁄ 搜索技术 ⁄ 共 3556字 ⁄ 评论关闭

spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标. 第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目 Spier定义(关于Spider的定义,有广义和狭义两种). 狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http协议检索web文档的软件都称之为spider. 其中Protocol Gives Sites Way To Keep Out The 'Bots Jere...

阅读全文

开源项目-空间数据搜索引擎客户端(GenetworkClient)

2018年02月20日 ⁄ 搜索技术 ⁄ 共 2416字 ⁄ 评论关闭

1 介绍项目地址：https://code.google.com/p/genetworkclient/ GeoNetwork是空间信息领域中的目录服务软件，它是一个基于Java实现的开源软件，使用Lucene实现空间资源的全文检索。 GentworkClient 是本人开发的一个Java 库，是开源软件Genetwork的客户端实现，目标是提供一个简单易用的API来添加、删除、修改和查询Genetwork中的空间资源。 2 GenetworkClient API package cn.ac.registAService.service; import java.util...

阅读全文

倒排索引-搜索引擎的基石搜索引擎-倒排索引基础知识

2018年02月17日 ⁄ 搜索技术 ⁄ 共 3260字 ⁄ 评论关闭

本文转自：http://blog.csdn.net/hguisu/article/details/7969757 1.概述在关系数据库系统里，索引是检索数据最有效率的方式,。但对于搜索引起，他它并不能满足其特殊要求： 1）海量数据：搜索引擎面对的是海量数据，像Google，百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量，面对如此海量数据 ,使得数据库系统很难有效的管理。 2）数据操作简单：搜索引擎使用的数据操作简单 ,一...

阅读全文

中文搜索引擎技术揭密

2018年02月08日 ⁄ 搜索技术 ⁄ 共 22128字 ⁄ 评论关闭

系统架构互联网在近10年的得到飞速发展，互联网正在逐渐深入人们的生活，改变人们的生活。互联网经济也经历了风风雨雨，从缓慢起步到急速膨胀，从泡沫破灭到逐步回暖；从“网络广告”到“拇指经济”，从“网络游戏”到“搜索力经济”。目前，搜索引擎成为最受人们关注的焦点之一，也成为亿万富翁的制造摇篮。越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子，其中许多人会选择拥有自己的搜索引擎。国内著名搜索引擎公司百度...

阅读全文

学步园

使用 Java 开源工具建立一个灵活的搜索引擎

搜索引擎最经典的书籍——《走进搜索引擎》（梁斌著）百度网盘免费下载

数学之美系列十七：闪光的不一定是金子谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

毕业设计源码——搜索引擎各种版本的搜索引擎

scrapy安装

[原创]2008年我给欧莱雅客户做的化妆品垂直搜索引擎用户网络口碑监测系统演示以及截图

开源spider一览[c#/java/c++]

开源项目-空间数据搜索引擎客户端(GenetworkClient)

倒排索引-搜索引擎的基石搜索引擎-倒排索引基础知识

中文搜索引擎技术揭密

书签

最新文章New

本站推荐

返回首页