一般的网页设计都由网页设计师完成。设计师设计网站往往仅从美观、创意和易用的角度考虑,这对于一个期望获得搜索引擎排名优秀的商业网站来说,已经远远不够了,网站策划人员至少应该为设计师递交一份需求备忘录,提醒在设计中需要配合和注意的环节。
目录结构和URL
URL是统一资源定位,即每个网页的网址、路径。网站文件的目录结构直接体现于URL。清晰简短的目录结构和规范的命名不仅有利于用户体验和网址传播,更是搜索引...
阅读全文
google的秘密入口
一.大家试过没有,使用google,如果加用了超级代理,会有多十倍的东东可搜…
二.下面是google的一些秘密入口 http://www.google.com/microsoft 微软风格的入口 http://www.google.com/mac MAC风格的入口 http://www.google.com/linux Linux风格的入口 http://www.google.com/bsd FreeBSD风格的入口 Google有各种语言的版本,下面这些语言可能实在是稀罕了点儿 ...
阅读全文
关键字:垂直搜索引擎中文分词 nutch tomcat linux
1.说明
建立简单的垂直搜索引擎。
通过实际操作信息搜索软件,环境配置,了解主要模块的构成,及交互方式。通过修改搜索软件,了解软件架构,接口及插件等运作方式。
通过对分词部分的修改,了解了分词原理及主流的中文分词技术及其应用。
2.目标
利用信息检索工具,搜索http://beijing.cncn.com/网站中的景点介绍网页,对其进行索引,使用户可通过关键字查询,快速定位...
阅读全文
GOOGLE网站登录 http://www.google.com/intl/zh-CN/add_url.html
百度网站登录 http://www.baidu.com/search/url_submit.html
Yahoo 网站登录>http://search.help.cn.yahoo.com/h4_4.html
Live网站登录http://search.msn.com/docs/submit.aspx?FORM=WSDD2
Dmoz 网站登录 http://www.dmoz.com/World/Chinese_Simplified
Coodir网站目录登录http://www.coodir.com/accounts/addsite.asp
Alexa 网站登录 http://www.alexa...
阅读全文
1.引言
万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。
传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的...
阅读全文
现在用的 hadoop 的版本是 0.20.2-cdh3u6。 cdh 是 Cloudera 的开源版本。
使用 local 模式的时候,会出现几个错误,记录如下:
1. java.lang.NullPointerException 异常
1
2
3
4
5
6
7
java.lang.Exception: java.lang.NullPointerException
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:349)
Caused by: java.lang.NullPointerException
at org.apache.hadoop.mapred.pipes...
阅读全文
有的时候,我们在 hadoop 上的输入可能不是一些基于行的文本,是希望自定义一些结构化的数据。这种情况,一般会选用工具将结构化的数据序列化成字节流,存储在磁盘上。然后在 maper 中读取进来,反序列化即可得到原来的数据。
我们使用 google protobuf 作为这种结构化的信息传递的工具。
首先可以先定义 person.proto 文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
...
阅读全文
最近带新人,问我怎么查询一些网站在搜索引擎中的基本信息,所以今天把这几个简单的命令给大家复习一下。其实这些命令和我之前的一篇文章《Google顶级搜索引擎搜索方法使用技巧大全》原理一样,都是都是搜索引擎检索信息方面的功能。下面入正题:
site:查询网站被索引的网页,site: www.semshare.netlink:查询链接到你的网站的网页,link: www.semshare.netcache:网站当前在Google的缓存,cache: www.semshare.netinfo:网站...
阅读全文
IDE使用的MyEclipse6.5,数据库使用MySQL 5.0.37 , 另装了Navicat for MySQL , jdk版本是6.0
工程做完的效果图如下,com.zly.indexManager中两个类,分别创建索引和搜索索引,
com.zly.test.entity中是使用的实体类,分别是NewsType(新闻类型),NewsItem(新闻具体条目),PageControl(分页实体bean) , SearchResultBean(保存搜索结果的bean).
浏览和搜索的前提是有据可查,没有数据什么都实现不了...
阅读全文