现在位置: 首页 > 搜索技术 > 文章
2014年11月14日 搜索技术 ⁄ 共 5387字 评论关闭
一般的网页设计都由网页设计师完成。设计师设计网站往往仅从美观、创意和易用的角度考虑,这对于一个期望获得搜索引擎排名优秀的商业网站来说,已经远远不够了,网站策划人员至少应该为设计师递交一份需求备忘录,提醒在设计中需要配合和注意的环节。 目录结构和URL URL是统一资源定位,即每个网页的网址、路径。网站文件的目录结构直接体现于URL。清晰简短的目录结构和规范的命名不仅有利于用户体验和网址传播,更是搜索引...
阅读全文
2014年11月09日 搜索技术 ⁄ 共 14556字 评论关闭
google的秘密入口 一.大家试过没有,使用google,如果加用了超级代理,会有多十倍的东东可搜… 二.下面是google的一些秘密入口  http://www.google.com/microsoft  微软风格的入口    http://www.google.com/mac  MAC风格的入口    http://www.google.com/linux  Linux风格的入口    http://www.google.com/bsd  FreeBSD风格的入口    Google有各种语言的版本,下面这些语言可能实在是稀罕了点儿 ...
阅读全文
2014年11月07日 搜索技术 ⁄ 共 4696字 评论关闭
关键字:垂直搜索引擎中文分词 nutch tomcat linux   1.说明 建立简单的垂直搜索引擎。 通过实际操作信息搜索软件,环境配置,了解主要模块的构成,及交互方式。通过修改搜索软件,了解软件架构,接口及插件等运作方式。 通过对分词部分的修改,了解了分词原理及主流的中文分词技术及其应用。 2.目标 利用信息检索工具,搜索http://beijing.cncn.com/网站中的景点介绍网页,对其进行索引,使用户可通过关键字查询,快速定位...
阅读全文
2014年11月06日 搜索技术 ⁄ 共 1326字 评论关闭
GOOGLE网站登录 http://www.google.com/intl/zh-CN/add_url.html  百度网站登录 http://www.baidu.com/search/url_submit.html   Yahoo 网站登录>http://search.help.cn.yahoo.com/h4_4.html Live网站登录http://search.msn.com/docs/submit.aspx?FORM=WSDD2  Dmoz 网站登录 http://www.dmoz.com/World/Chinese_Simplified  Coodir网站目录登录http://www.coodir.com/accounts/addsite.asp Alexa 网站登录 http://www.alexa...
阅读全文
2014年11月06日 搜索技术 ⁄ 共 61字 评论关闭
http://blogger.org.cn/blog/more.asp?name=zhaoyong04&id=25397 
阅读全文
2014年11月01日 搜索技术 ⁄ 共 13512字 评论关闭
1.引言    万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。    传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的...
阅读全文
2014年10月30日 搜索技术, 黄专家专栏 ⁄ 共 2024字 评论关闭
现在用的 hadoop 的版本是 0.20.2-cdh3u6。 cdh 是 Cloudera 的开源版本。 使用 local 模式的时候,会出现几个错误,记录如下: 1. java.lang.NullPointerException 异常 1 2 3 4 5 6 7 java.lang.Exception: java.lang.NullPointerException at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:349) Caused by: java.lang.NullPointerException at org.apache.hadoop.mapred.pipes...
阅读全文
2014年10月30日 搜索技术, 黄专家专栏 ⁄ 共 3830字 评论关闭
有的时候,我们在 hadoop 上的输入可能不是一些基于行的文本,是希望自定义一些结构化的数据。这种情况,一般会选用工具将结构化的数据序列化成字节流,存储在磁盘上。然后在 maper 中读取进来,反序列化即可得到原来的数据。 我们使用 google protobuf 作为这种结构化的信息传递的工具。 首先可以先定义 person.proto 文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ...
阅读全文
2014年10月28日 搜索技术 ⁄ 共 1350字 评论关闭
   最近带新人,问我怎么查询一些网站在搜索引擎中的基本信息,所以今天把这几个简单的命令给大家复习一下。其实这些命令和我之前的一篇文章《Google顶级搜索引擎搜索方法使用技巧大全》原理一样,都是都是搜索引擎检索信息方面的功能。下面入正题: site:查询网站被索引的网页,site: www.semshare.netlink:查询链接到你的网站的网页,link: www.semshare.netcache:网站当前在Google的缓存,cache: www.semshare.netinfo:网站...
阅读全文
   IDE使用的MyEclipse6.5,数据库使用MySQL 5.0.37 , 另装了Navicat for MySQL , jdk版本是6.0     工程做完的效果图如下,com.zly.indexManager中两个类,分别创建索引和搜索索引,     com.zly.test.entity中是使用的实体类,分别是NewsType(新闻类型),NewsItem(新闻具体条目),PageControl(分页实体bean) , SearchResultBean(保存搜索结果的bean).                   浏览和搜索的前提是有据可查,没有数据什么都实现不了...
阅读全文