robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。下面学步园小编来讲解下robots.txt用法有哪些?RobotsMETA标签写法有哪些?
robots.txt用法有哪些
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存...
阅读全文
现在很多站长优化长尾关键词,那么,优化长尾关键词从哪些方面考虑?下面学步园小编来讲解下从哪些方面优化长尾关键词?
从哪些方面优化长尾关键词
第一步:了解网页的内容
首先,你需要知道这个网页的内容,你发这个网页内容的目的是什么?并不是所有的内容都可以作为长尾关键词给你带来流量,有的网页内容只是为了让网站更丰富。
比如精品装修网,像这样的网站,就是典型的装修装饰类的专业网站。她的网页内...
阅读全文
索引是什么
索引是一种可以加快查询的数据结构。例如我们在读书,查新华字典的时候,我们不会一页一页的翻去找到我们要查找的内容。我们是在书的前几页的目录中首先找到我们要查找的内容在书中的第几页,然后直接翻到那一页就找到了我们的目标内容。
数据库中的索引
那么类似上面的例子,在数据库中面对千千万万的磁盘数据,当我们查找的时候也不可能一个一个磁盘块去查找数据,这样的效率是很低的。同样,伟大...
阅读全文
简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前。
爬虫是什么?
如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 ...
阅读全文
在python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止。这篇文章主要介绍了Angular2进阶之如何解决爬虫出现403问题的办法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧。
要解决这个问题,需要用到python的模块urllib2模块,urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=https://www.xuebuyuan.com/。对于这个连接...
阅读全文
对于网络爬虫技术的学习,其他教学很少有从整体结构来说的,多数是直接放出某部分代码。这样的方法会使初学者摸不着头脑:就好像是盲人摸象,有人摸到的是象腿,以为是一根大柱子;有人摸到的是大象耳朵,以为是一把大蒲扇等。
在开始第一个爬虫之前,先从宏观角度出发说清楚两个问题:Python爬虫的流程是怎样的? 三个流程的技术实现是什么?
值得说明的是,本书选择了Python 3作为开发语言,现在Python最新版为Pytho...
阅读全文
流格式套接字(Stream Sockets)就是“面向连接的套接字”,它基于 TCP 协议;数据报格式套接字(Datagram Sockets)就是“无连接的套接字”,它基于 UDP 协议。
这给大家造成一种印象,面向连接就是可靠的通信,无连接就是不可靠的通信,实际情况是这样吗?
另外,不管是哪种数据传输方式,都得通过整个 Internet 网络的物理线路将数据传输过去,从这个层面理解,所有的 socket 都是有物理连接的呀,为什么还有无连接的 sock...
阅读全文
Solr和ElasticSearch到底有一些什么不同?我在网上搜索了一些文章,这些文章要么是列出一个表,详细地介绍两者什么功能有,什么功能没有(比较好的一篇博客 https://solr-vs-elasticsearch.com ),要么是从大类出发(其中比较好的一篇文章 https://logz.io/blog/solr-vs-elasticsearch),比较两者的关注度,社区等等。但看完这些文章,还是没法解决我心中的疑惑。最近由于项目的原因,Solr和ElasticSearch都有所使用。最近又把...
阅读全文
由于coreseek带的mmseg默认词库只有1w多个字词,搜索出来的结果准确度不是很理想。花了半天找了下搜索引擎相关的资料,现在记录下一些提高搜索精度的方法和步骤。
提高coreseek的搜索精度的方法:
1. 基础词库要足够丰富,因为只有基础词库丰富了,才能谈权重设置。
2. 增加相关业务领域的词汇,进一步提升词库量,如果不是做综合搜索,一般都只需要提高自身业务领域的词汇。
3. 记录与收集用户搜索,把搜...
阅读全文