網路爬蟲是什麼

現在的位置: 首頁 > 綜合 > 正文

RSS

上篇下篇

網路爬蟲是什麼

2020年01月06日 ⁄ 綜合 ⁄ 共 1165字 ⁄ 字型大小小中大 ⁄ 評論關閉

　　作為程序員，相信大家對「爬蟲」這個詞並不陌生，身邊常常會有人提這個詞，在不了解它的人眼中，會覺得這個技術很高端很神秘。不用著急，我們的爬蟲系列就是帶你去揭開它的神秘面紗，探尋它真實的面目。

爬蟲是什麼

　　網路爬蟲（又被稱為網頁蜘蛛，網路機器人），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

　　通俗地講，我們把互聯網比作一張大蜘蛛網，每個站點資源比作蜘蛛網上的一個結點，爬蟲就像一隻蜘蛛，按照設計好的路線和規則在這張蜘蛛網上找到目標結點，獲取資源。

為什麼使用爬蟲

　　為什麼我們需要使用爬蟲呢？

　　大家可以想像一下一個場景：你非常崇拜一個微博名人，對他的微博非常著迷，你想把他十年來微博上的每一句話摘抄下來，製作成名人語錄。這個時候你怎麼辦呢？手動去Ctrl+C和Ctrl+V嗎？這種方法確實沒錯，數據量小的時候我們還可以這樣做，但是數據成千上萬的時候你還要這樣做嗎？

　　我們再來想像另一個場景：你要做一個新聞聚合網站，每天需要定時去幾個新聞網站獲取最新的新聞，我們稱之為RSS訂閱。難道你會定時去各個訂閱網站複製新聞嗎？恐怕個人很難做到這一點吧。

　　上面兩種場景，使用爬蟲技術可以很輕易地解決問題。所以，我們可以看到，爬蟲技術主要可以幫助我們做兩類事情：一類是數據獲取需求，主要針對特定規則下的大數據量的信息獲取；另一類是自動化需求，主要應用在類似信息聚合、搜索等方面。

爬蟲的分類

　　從爬取對象來看，爬蟲可以分為通用爬蟲和聚焦爬蟲兩類。

　　通用網路爬蟲又稱全網爬蟲（ScalableWebCrawler），爬行對象從一些種子URL擴充到整個Web，主要為搜索引擎和大型Web服務提供商採集數據。這類網路爬蟲的爬取範圍和數量巨大，對於爬行速度和存儲空間要求較高，對於爬行頁面的順序要求相對較低。例如我們常見的百度和谷歌搜索。我們輸入關鍵詞，它們會從全網去找關鍵詞相關的網頁，並且按照一定的順序呈現給我們。

　　聚焦網路爬蟲（FocusedCrawler），是指選擇性地爬取那些與預先定義好的主題相關頁面的網路爬蟲。和通用網路爬蟲相比，聚焦爬蟲只需要爬取特定的網頁，爬取的廣度會小很多。例如我們需要爬取東方財富網的基金數據，我們只需要針對東方財富網的頁面制定規則爬取就行。

　　通俗地講，通用爬蟲就類似於一隻蜘蛛，需要尋找特定的食物，但是它不知道蜘蛛網的哪個節點有，所以它只能從一個節點開始尋找，遇到節點就看一下，如果有食物就獲取食物，如果這個節點指示某某節點有食物，那它就順著指示去尋找下個節點。而聚焦網路爬蟲就是這隻蜘蛛知道哪個節點有食物，它只需要規劃好路線到達那個節點就能獲取到食物。

　　結束語：以上就是關於網路爬蟲是什麼的全部內容，更多內容請關注學步園。

【上篇】SQL判斷欄位列是否存在的方法
【下篇】SQL Server高級內容之case語法函數概述及使用

作者: admin

該日誌由 admin 於4年前發表在綜合分類下，最後更新於 2020年01月06日.
轉載請註明: 網路爬蟲是什麼 | 學步園 +複製鏈接

抱歉!評論已關閉.

學步園

網路爬蟲是什麼

爬蟲是什麼

為什麼使用爬蟲

爬蟲的分類

作者: admin

書籤

最新文章New

本站推薦

返回首頁