现在用的 hadoop 的版本是 0.20.2-cdh3u6。 cdh 是 Cloudera 的开源版本。
使用 local 模式的时候,会出现几个错误,记录如下:
1. java.lang.NullPointerException 异常
1
2
3
4
5
6
7
java.lang.Exception: java.lang.NullPointerException
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:349)
Caused by: java.lang.NullPointerException
at org.apache.hadoop.mapred.pipes...
阅读全文
有的时候,我们在 hadoop 上的输入可能不是一些基于行的文本,是希望自定义一些结构化的数据。这种情况,一般会选用工具将结构化的数据序列化成字节流,存储在磁盘上。然后在 maper 中读取进来,反序列化即可得到原来的数据。
我们使用 google protobuf 作为这种结构化的信息传递的工具。
首先可以先定义 person.proto 文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
...
阅读全文
最近带新人,问我怎么查询一些网站在搜索引擎中的基本信息,所以今天把这几个简单的命令给大家复习一下。其实这些命令和我之前的一篇文章《Google顶级搜索引擎搜索方法使用技巧大全》原理一样,都是都是搜索引擎检索信息方面的功能。下面入正题:
site:查询网站被索引的网页,site: www.semshare.netlink:查询链接到你的网站的网页,link: www.semshare.netcache:网站当前在Google的缓存,cache: www.semshare.netinfo:网站...
阅读全文
IDE使用的MyEclipse6.5,数据库使用MySQL 5.0.37 , 另装了Navicat for MySQL , jdk版本是6.0
工程做完的效果图如下,com.zly.indexManager中两个类,分别创建索引和搜索索引,
com.zly.test.entity中是使用的实体类,分别是NewsType(新闻类型),NewsItem(新闻具体条目),PageControl(分页实体bean) , SearchResultBean(保存搜索结果的bean).
浏览和搜索的前提是有据可查,没有数据什么都实现不了...
阅读全文
越来越多的网站,开始采用“单页面结构”(Single-page
application)。
整个网站只有一张网页,采用Ajax技术,根据用户的输入,加载不同的内容。
这种做法的好处是用户体验好、节省流量,缺点是AJAX内容无法被搜索引擎抓取。举例来说,你有一个网站。
http://example.com
用户通过井号结构的URL,看到不同的内容。
http://example.com#1
http://example.com#2
http://example.com#3
但是,搜索引擎只抓取examp...
阅读全文
对搜索引擎(百度/谷歌/雅虎)排名不友好的五种网站
搜索引擎针对不同类别的网站,判断标准和考核得分点是不
一样的,避免对百度排名不友好的五种网站操作
你的网站是否在这五种网站里,决定你的网站是否能获得排
名。
1、有没有同学看到有的网站非常高大上,很多企业网都很
炫,实际实际上不利于优化
搜索引擎不可读 frame IF框架
大量网站都存在js、FLASH、框架,这些不是不利于优化吗
,这里有个理解误区,js要实现的效果是...
阅读全文
搜索引擎的结构清晰、分工明确。按照各自的功能划分,可以划分为四大体系结构。
一、抓取系统(又称为下载系统)
搜索引擎的工作组件为爬虫,爬虫通过在网页上爬寻,来抓取和下载各种类型的网页。并且保持对万维网变化的同步。这也是搜索引擎工作的第一步。
二、分析系统
通过抓到的网页,分析系统来对这些不同类型的网页进行分析,并进行pr和分词计算。
三、索引系统
将分析处理后的网页进行索引入库。
四、查询系统
...
阅读全文
Web搜索引擎设计和实现分析
作者: 出处: 时间: 03-06 点击:
31
内容载入中...
---- 一、引言
---- 随着Internet的飞速发展,人们越来越依靠网络来查找他们所需要的信息,但是,由于网上的信息源多不胜数,也就是我们经常所说的"Rich Data, Poor Information"。所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。
---- 现在在网上的搜索引擎也已经有很多,比较著...
阅读全文