现在位置: 首页 > 搜索技术 > 文章
2014年10月30日 搜索技术, 黄专家专栏 ⁄ 共 2024字 评论关闭
现在用的 hadoop 的版本是 0.20.2-cdh3u6。 cdh 是 Cloudera 的开源版本。 使用 local 模式的时候,会出现几个错误,记录如下: 1. java.lang.NullPointerException 异常 1 2 3 4 5 6 7 java.lang.Exception: java.lang.NullPointerException at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:349) Caused by: java.lang.NullPointerException at org.apache.hadoop.mapred.pipes...
阅读全文
2014年10月30日 搜索技术, 黄专家专栏 ⁄ 共 3830字 评论关闭
有的时候,我们在 hadoop 上的输入可能不是一些基于行的文本,是希望自定义一些结构化的数据。这种情况,一般会选用工具将结构化的数据序列化成字节流,存储在磁盘上。然后在 maper 中读取进来,反序列化即可得到原来的数据。 我们使用 google protobuf 作为这种结构化的信息传递的工具。 首先可以先定义 person.proto 文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ...
阅读全文
2014年10月28日 搜索技术 ⁄ 共 1350字 评论关闭
   最近带新人,问我怎么查询一些网站在搜索引擎中的基本信息,所以今天把这几个简单的命令给大家复习一下。其实这些命令和我之前的一篇文章《Google顶级搜索引擎搜索方法使用技巧大全》原理一样,都是都是搜索引擎检索信息方面的功能。下面入正题: site:查询网站被索引的网页,site: www.semshare.netlink:查询链接到你的网站的网页,link: www.semshare.netcache:网站当前在Google的缓存,cache: www.semshare.netinfo:网站...
阅读全文
   IDE使用的MyEclipse6.5,数据库使用MySQL 5.0.37 , 另装了Navicat for MySQL , jdk版本是6.0     工程做完的效果图如下,com.zly.indexManager中两个类,分别创建索引和搜索索引,     com.zly.test.entity中是使用的实体类,分别是NewsType(新闻类型),NewsItem(新闻具体条目),PageControl(分页实体bean) , SearchResultBean(保存搜索结果的bean).                   浏览和搜索的前提是有据可查,没有数据什么都实现不了...
阅读全文
2014年10月26日 搜索技术 ⁄ 共 5430字 评论关闭
对于每一个做SEO优化的人员来说,最基本、最起码必须要了解搜索引擎的工作原理,因为我们在做网站优化的时候是通过和搜索引擎打交道来实现我们网站的排名的!研究搜索引擎工作原理就很有必要了。今天我来和大家分享一下我是如何学通搜索引擎工作原理的,其实很简单,你可以把搜索引擎工作原理模拟成一个形象的蜘蛛爬网抓虫子的过程就可以了,具体是怎么一个过程我可以详解的给大家分析一下: 搜索引擎的工作原理大体上可以分...
阅读全文
2014年10月23日 搜索技术 ⁄ 共 2036字 评论关闭
越来越多的网站,开始采用“单页面结构”(Single-page application)。 整个网站只有一张网页,采用Ajax技术,根据用户的输入,加载不同的内容。 这种做法的好处是用户体验好、节省流量,缺点是AJAX内容无法被搜索引擎抓取。举例来说,你有一个网站。 http://example.com 用户通过井号结构的URL,看到不同的内容。 http://example.com#1 http://example.com#2 http://example.com#3 但是,搜索引擎只抓取examp...
阅读全文
2014年10月22日 搜索技术 ⁄ 共 1656字 评论关闭
对搜索引擎(百度/谷歌/雅虎)排名不友好的五种网站 搜索引擎针对不同类别的网站,判断标准和考核得分点是不 一样的,避免对百度排名不友好的五种网站操作 你的网站是否在这五种网站里,决定你的网站是否能获得排 名。 1、有没有同学看到有的网站非常高大上,很多企业网都很 炫,实际实际上不利于优化 搜索引擎不可读 frame IF框架  大量网站都存在js、FLASH、框架,这些不是不利于优化吗 ,这里有个理解误区,js要实现的效果是...
阅读全文
2014年09月05日 搜索技术 ⁄ 共 251字 评论关闭
搜索引擎的结构清晰、分工明确。按照各自的功能划分,可以划分为四大体系结构。 一、抓取系统(又称为下载系统) 搜索引擎的工作组件为爬虫,爬虫通过在网页上爬寻,来抓取和下载各种类型的网页。并且保持对万维网变化的同步。这也是搜索引擎工作的第一步。 二、分析系统 通过抓到的网页,分析系统来对这些不同类型的网页进行分析,并进行pr和分词计算。 三、索引系统 将分析处理后的网页进行索引入库。 四、查询系统 ...
阅读全文
2014年08月16日 搜索技术 ⁄ 共 11943字 评论关闭
【可搜索范围】 1. 正常网页搜索 数据:URL、标题,描述 2. 百科(百度,360) 数据:URL、标题,描述,作者,发布日期 3. 微博 数据:URL、标题,描述,作者,发布日期,微博类型(新浪、腾讯、163、搜狐),评论数,转发数 4. 新闻 数据:URL、标题,描述,发布日期,发布网站 5. 论坛 数据:URL、标题,描述,发布日期,发布网站 6. 博客 数据:URL、标题,描述,发布日期,发布网站 【原理】 1. 获取各大搜索引擎,...
阅读全文
2014年04月28日 搜索技术 ⁄ 共 4075字 评论关闭
Web搜索引擎设计和实现分析 作者: 出处: 时间: 03-06 点击: 31 内容载入中... ---- 一、引言 ---- 随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,也就是我们经常所说的"Rich Data, Poor Information"。所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。 ---- 现在在网上的搜索引擎也已经有很多,比较著...
阅读全文