现在位置: 首页 > 搜索技术 > 文章
2020年02月19日 搜索技术 ⁄ 共 1428字 评论关闭
  索引是什么   索引是一种可以加快查询的数据结构。例如我们在读书,查新华字典的时候,我们不会一页一页的翻去找到我们要查找的内容。我们是在书的前几页的目录中首先找到我们要查找的内容在书中的第几页,然后直接翻到那一页就找到了我们的目标内容。   数据库中的索引   那么类似上面的例子,在数据库中面对千千万万的磁盘数据,当我们查找的时候也不可能一个一个磁盘块去查找数据,这样的效率是很低的。同样,伟大...
阅读全文
2020年02月18日 搜索技术 ⁄ 共 886字 评论关闭
  简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前。   爬虫是什么?   如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 ...
阅读全文
2020年02月17日 搜索技术 ⁄ 共 1996字 评论关闭
  原型链,已经是一个老生常谈的话题了,这里就不过多总结,精华一张图就可以搞定。该文章更多的是从 一个公式 的角度讲述原型链。   补充说明   实例化:用类( class )创建对象( obj )的过程。如:   TensionMax = new Person() ,那么 TensionMax 是 Persion 的实例(对象)。   但由于 JavaScript 并不存在类,所以 JavaScript 所谓的类,只是我们模拟出来的函数,最终还是基于原型构建。   以下 3 个观点只是为了...
阅读全文
2020年02月17日 搜索技术 ⁄ 共 1944字 评论关闭
  在python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止。这篇文章主要介绍了Angular2进阶之如何解决爬虫出现403问题的办法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧。   要解决这个问题,需要用到python的模块urllib2模块,urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=https://www.xuebuyuan.com/。对于这个连接...
阅读全文
2020年02月14日 搜索技术 ⁄ 共 1025字 评论关闭
  对于网络爬虫技术的学习,其他教学很少有从整体结构来说的,多数是直接放出某部分代码。这样的方法会使初学者摸不着头脑:就好像是盲人摸象,有人摸到的是象腿,以为是一根大柱子;有人摸到的是大象耳朵,以为是一把大蒲扇等。   在开始第一个爬虫之前,先从宏观角度出发说清楚两个问题:Python爬虫的流程是怎样的? 三个流程的技术实现是什么?   值得说明的是,本书选择了Python 3作为开发语言,现在Python最新版为Pytho...
阅读全文
2020年02月12日 搜索技术 ⁄ 共 2356字 评论关闭
  流格式套接字(Stream Sockets)就是“面向连接的套接字”,它基于 TCP 协议;数据报格式套接字(Datagram Sockets)就是“无连接的套接字”,它基于 UDP 协议。   这给大家造成一种印象,面向连接就是可靠的通信,无连接就是不可靠的通信,实际情况是这样吗?   另外,不管是哪种数据传输方式,都得通过整个 Internet 网络的物理线路将数据传输过去,从这个层面理解,所有的 socket 都是有物理连接的呀,为什么还有无连接的 sock...
阅读全文
2020年02月12日 搜索技术 ⁄ 共 8480字 评论关闭
  Solr和ElasticSearch到底有一些什么不同?我在网上搜索了一些文章,这些文章要么是列出一个表,详细地介绍两者什么功能有,什么功能没有(比较好的一篇博客 https://solr-vs-elasticsearch.com ),要么是从大类出发(其中比较好的一篇文章 https://logz.io/blog/solr-vs-elasticsearch),比较两者的关注度,社区等等。但看完这些文章,还是没法解决我心中的疑惑。最近由于项目的原因,Solr和ElasticSearch都有所使用。最近又把...
阅读全文
2020年02月12日 搜索技术 ⁄ 共 1473字 评论关闭
  由于coreseek带的mmseg默认词库只有1w多个字词,搜索出来的结果准确度不是很理想。花了半天找了下搜索引擎相关的资料,现在记录下一些提高搜索精度的方法和步骤。   提高coreseek的搜索精度的方法:   1. 基础词库要足够丰富,因为只有基础词库丰富了,才能谈权重设置。   2. 增加相关业务领域的词汇,进一步提升词库量,如果不是做综合搜索,一般都只需要提高自身业务领域的词汇。   3. 记录与收集用户搜索,把搜...
阅读全文
2020年02月11日 搜索技术 ⁄ 共 2034字 评论关闭
  Intro   在我的活动室预约项目中,有一个公告模块,类似于新闻发布,个人感觉像新闻这种网页基本就是发布的时候编辑一次之后就再也不会改了,最适合静态化了, 静态化之后用户请求的就是静态文件基本不再需要服务器端查询数据库甚至服务器端渲染,可以一定程度上提升服务器的处理能力以及优化用户体验,而且这种静态化的url对 SEO 比较友好。   由于我的这个项目正在开发中,迁移起来不太方便,所以使用的是伪静态化,...
阅读全文
2020年02月10日 搜索技术 ⁄ 共 1061字 评论关闭
  浏览器内核是测览器最核心的部分,负责对网页语法的解释并渲染网页(也就是显示网页效果)渲染引擎决定了浏览器如何显示网页的内容以及页面的格式信息。   不同的浏览器内核对网页编写语法的解释不同,因此同一网页在不同内核浏览器中的渲染(显示)效果也可能不同。目前常见的浏览器内核有 Trident、 Gecko、 Webkit、 Presto、 Blink五种,下面我们具体介绍。   Trident内核   代表浏览器是浏览器,因此Trident内核又称...
阅读全文