现在位置: 首页 > 搜索技术 > 文章
2018年03月22日 搜索技术 ⁄ 共 59字 评论关闭
scrapy安装 http://xuh5156.github.io/2014/06/04/scrapy_install/
阅读全文
 口碑public praise,指用户对品牌的评价,是品牌它触点中的一些关键指标。口碑监测指标全面描述用户(广义的服户)对品牌的评价,包括产品应用消息、企业荣誉、企业公民行为、负品牌现象、论坛与博客监测五个方面。     将口碑引入到品牌指数数据模型中并进行量化监测,是品牌指数系统3.1的一个新功能。在以互联网为特色的新媒体时代,我们需要做的不是需不需要在意口碑,而在于如何以数据方式监测、评估口碑效果,我们相信这...
阅读全文
2018年03月19日 搜索技术 ⁄ 共 3556字 评论关闭
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标. 第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目 Spier定义(关于Spider的定义,有广义和狭义两种). 狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http协议检索web文档的软件都称之为spider. 其中Protocol Gives Sites Way To Keep Out The 'Bots Jere...
阅读全文
2018年02月20日 搜索技术 ⁄ 共 2416字 评论关闭
1 介绍 项目地址:https://code.google.com/p/genetworkclient/ GeoNetwork是空间信息领域中的目录服务软件,它是一个基于Java实现的开源软件,使用Lucene实现空间资源的全文检索。 GentworkClient 是本人开发的一个Java 库,是开源软件Genetwork的客户端实现,目标是提供一个简单易用的API来添加、删除、修改和查询Genetwork中的空间资源。 2 GenetworkClient API package cn.ac.registAService.service; import java.util...
阅读全文
2018年02月17日 搜索技术 ⁄ 共 3260字 评论关闭
本文转自:http://blog.csdn.net/hguisu/article/details/7969757 1.概述       在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引起,他它并不能满足其特殊要求:       1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量 ,面对如此海量数据 ,使得数据库系统很难有效的管理。        2)数据操作简单:搜索引擎使用的数据操作简单 ,一...
阅读全文
2018年02月08日 搜索技术 ⁄ 共 22128字 评论关闭
系统架构     互联网在近10年的得到飞速发展,互联网正在逐渐深入人们的生活,改变人们的生活。互联网经济也经历了风风雨雨,从缓慢起步到急速膨胀,从泡沫破灭到逐步回暖;从“网络广告”到“拇指经济”,从“网络游戏”到“搜索力经济”。目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮。越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子,其中许多人会选择拥有自己的搜索引擎。国内著名搜索引擎公司百度...
阅读全文
2018年02月01日 搜索技术 ⁄ 共 1861字 评论关闭
  搜索引擎中网络爬虫的设计分析 作者:Ackarlix   下面简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。   说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?   1】 网络爬虫高度可配置性。 2】 网络爬虫可以解析抓到的网页里的链接 3】 网络爬虫有简单的存储配置 4】 网络爬虫拥有智能的根据网页更新分析功能 5】 网...
阅读全文
2018年01月28日 搜索技术 ⁄ 共 1459字 评论关闭
以下代码是搜索指定的一个网站(www.cmfu.com)的: <div   id= "search ">           <form     method= "get "   action= "http://www.google.com/search ">                 <span   class= "bold12 "> 用Google搜索本站: </span> <input   type= "hidden "   name= "hl "   value= "zh-CN "   /> <input   type= "hidden "   name= "inlang "   value= "zh-CN "   />             <...
阅读全文
2018年01月28日 搜索技术 ⁄ 共 1590字 评论关闭
<html> <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> <head><script>var tmpValue="这里输入关键字";</script> </head> <body> <!-- Google 部分 --><form method=get action="http://www.google.com/search" target="_blank"><table bgcolor="#FFFFFF"><tr><td><a href="http://www.google.com/"><img src="ht...
阅读全文
2018年01月10日 搜索技术 ⁄ 共 456字 评论关闭
  学SEO的好好看看吧。   robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 在进行网站优化的时候,经常会使用robots文件把一些内容不想让蜘蛛抓取,以前写过一篇网站优化robots.txt文件的运用, 现在写这编文章在补充一点点知识! 搜索引擎通过一种爬虫spider程序(又称搜索蜘蛛、robot、搜索机器人等),自动...
阅读全文