現在位置: 首頁 > 搜索技術 > 文章
2020年05月21日 搜索技術 ⁄ 共 1902字 評論關閉
robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內容。下面學步園小編來講解下robots.txt用法有哪些?RobotsMETA標籤寫法有哪些? robots.txt用法有哪些 當一個搜索機器人(有的叫搜索蜘蛛)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的範圍;如果該文件不存...
閱讀全文
2020年05月21日 搜索技術 ⁄ 共 889字 評論關閉
  現在很多站長優化長尾關鍵詞,那麼,優化長尾關鍵詞從哪些方面考慮?下面學步園小編來講解下從哪些方面優化長尾關鍵詞?   從哪些方面優化長尾關鍵詞   第一步:了解網頁的內容   首先,你需要知道這個網頁的內容,你發這個網頁內容的目的是什麼?並不是所有的內容都可以作為長尾關鍵詞給你帶來流量,有的網頁內容只是為了讓網站更豐富。   比如精品裝修網,像這樣的網站,就是典型的裝修裝飾類的專業網站。她的網頁內...
閱讀全文
2020年02月19日 搜索技術 ⁄ 共 1428字 評論關閉
  索引是什麼   索引是一種可以加快查詢的數據結構。例如我們在讀書,查新華字典的時候,我們不會一頁一頁的翻去找到我們要查找的內容。我們是在書的前幾頁的目錄中首先找到我們要查找的內容在書中的第幾頁,然後直接翻到那一頁就找到了我們的目標內容。   資料庫中的索引   那麼類似上面的例子,在資料庫中面對千千萬萬的磁碟數據,當我們查找的時候也不可能一個一個磁碟塊去查找數據,這樣的效率是很低的。同樣,偉大...
閱讀全文
2020年02月18日 搜索技術 ⁄ 共 886字 評論關閉
  簡單來說互聯網是由一個個站點和網路設備組成的大網,我們通過瀏覽器訪問站點,站點把HTML、JS、CSS代碼返回給瀏覽器,這些代碼經過瀏覽器解析、渲染,將豐富多彩的網頁呈現我們眼前。   爬蟲是什麼?   如果我們把互聯網比作一張大的蜘蛛網,數據便是存放於蜘蛛網的各個節點,而爬蟲就是一隻小蜘蛛,沿著網路抓取自己的獵物(數據)爬蟲指的是:向網站發起請求,獲取資源後分析並提取有用數據的程序;從技術層面來說就是 ...
閱讀全文
2020年02月17日 搜索技術 ⁄ 共 1996字 評論關閉
  原型鏈,已經是一個老生常談的話題了,這裡就不過多總結,精華一張圖就可以搞定。該文章更多的是從 一個公式 的角度講述原型鏈。   補充說明   實例化:用類( class )創建對象( obj )的過程。如:   TensionMax = new Person() ,那麼 TensionMax 是 Persion 的實例(對象)。   但由於 JavaScript 並不存在類,所以 JavaScript 所謂的類,只是我們模擬出來的函數,最終還是基於原型構建。   以下 3 個觀點只是為了...
閱讀全文
2020年02月17日 搜索技術 ⁄ 共 1944字 評論關閉
  在python寫爬蟲的時候,html.getcode()會遇到403禁止訪問的問題,這是網站對自動化爬蟲的禁止。這篇文章主要介紹了Angular2進階之如何解決爬蟲出現403問題的辦法,小編覺得挺不錯的,現在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧。   要解決這個問題,需要用到python的模塊urllib2模塊,urllib2模塊是屬於一個進階的爬蟲抓取模塊,有非常多的方法,比方說連接url=https://www.xuebuyuan.com/。對於這個連接...
閱讀全文
2020年02月14日 搜索技術 ⁄ 共 1025字 評論關閉
  對於網路爬蟲技術的學習,其他教學很少有從整體結構來說的,多數是直接放出某部分代碼。這樣的方法會使初學者摸不著頭腦:就好像是盲人摸象,有人摸到的是象腿,以為是一根大柱子;有人摸到的是大象耳朵,以為是一把大蒲扇等。   在開始第一個爬蟲之前,先從宏觀角度出發說清楚兩個問題:Python爬蟲的流程是怎樣的? 三個流程的技術實現是什麼?   值得說明的是,本書選擇了Python 3作為開發語言,現在Python最新版為Pytho...
閱讀全文
2020年02月12日 搜索技術 ⁄ 共 2356字 評論關閉
  流格式套接字(Stream Sockets)就是「面向連接的套接字」,它基於 TCP 協議;數據報格式套接字(Datagram Sockets)就是「無連接的套接字」,它基於 UDP 協議。   這給大家造成一種印象,面向連接就是可靠的通信,無連接就是不可靠的通信,實際情況是這樣嗎?   另外,不管是哪種數據傳輸方式,都得通過整個 Internet 網路的物理線路將數據傳輸過去,從這個層面理解,所有的 socket 都是有物理連接的呀,為什麼還有無連接的 sock...
閱讀全文
2020年02月12日 搜索技術 ⁄ 共 8480字 評論關閉
  Solr和ElasticSearch到底有一些什麼不同?我在網上搜索了一些文章,這些文章要麼是列出一個表,詳細地介紹兩者什麼功能有,什麼功能沒有(比較好的一篇博客 https://solr-vs-elasticsearch.com ),要麼是從大類出發(其中比較好的一篇文章 https://logz.io/blog/solr-vs-elasticsearch),比較兩者的關注度,社區等等。但看完這些文章,還是沒法解決我心中的疑惑。最近由於項目的原因,Solr和ElasticSearch都有所使用。最近又把...
閱讀全文
2020年02月12日 搜索技術 ⁄ 共 1473字 評論關閉
  由於coreseek帶的mmseg默認詞庫只有1w多個字詞,搜索出來的結果準確度不是很理想。花了半天找了下搜索引擎相關的資料,現在記錄下一些提高搜索精度的方法和步驟。   提高coreseek的搜索精度的方法:   1. 基礎詞庫要足夠豐富,因為只有基礎詞庫豐富了,才能談權重設置。   2. 增加相關業務領域的辭彙,進一步提升詞庫量,如果不是做綜合搜索,一般都只需要提高自身業務領域的辭彙。   3. 記錄與收集用戶搜索,把搜...
閱讀全文