現在的位置: 首頁 > 綜合 > 正文

網路爬蟲是什麼

2020年01月06日 綜合 ⁄ 共 1165字 ⁄ 字型大小 評論關閉

  作為程序員,相信大家對「爬蟲」這個詞並不陌生,身邊常常會有人提這個詞,在不了解它的人眼中,會覺得這個技術很高端很神秘。不用著急,我們的爬蟲系列就是帶你去揭開它的神秘面紗,探尋它真實的面目。

爬蟲是什麼

  網路爬蟲(又被稱為網頁蜘蛛,網路機器人),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

  通俗地講,我們把互聯網比作一張大蜘蛛網,每個站點資源比作蜘蛛網上的一個結點,爬蟲就像一隻蜘蛛,按照設計好的路線和規則在這張蜘蛛網上找到目標結點,獲取資源。

為什麼使用爬蟲

  為什麼我們需要使用爬蟲呢?

  大家可以想像一下一個場景:你非常崇拜一個微博名人,對他的微博非常著迷,你想把他十年來微博上的每一句話摘抄下來,製作成名人語錄。這個時候你怎麼辦呢?手動去Ctrl+C和Ctrl+V嗎?這種方法確實沒錯,數據量小的時候我們還可以這樣做,但是數據成千上萬的時候你還要這樣做嗎?

  我們再來想像另一個場景:你要做一個新聞聚合網站,每天需要定時去幾個新聞網站獲取最新的新聞,我們稱之為RSS訂閱。難道你會定時去各個訂閱網站複製新聞嗎?恐怕個人很難做到這一點吧。

  上面兩種場景,使用爬蟲技術可以很輕易地解決問題。所以,我們可以看到,爬蟲技術主要可以幫助我們做兩類事情:一類是數據獲取需求,主要針對特定規則下的大數據量的信息獲取;另一類是自動化需求,主要應用在類似信息聚合、搜索等方面。

爬蟲的分類

  從爬取對象來看,爬蟲可以分為通用爬蟲和聚焦爬蟲兩類。

  通用網路爬蟲又稱全網爬蟲(ScalableWebCrawler),爬行對象從一些種子URL擴充到整個Web,主要為搜索引擎和大型Web服務提供商採集數據。這類網路爬蟲的爬取範圍和數量巨大,對於爬行速度和存儲空間要求較高,對於爬行頁面的順序要求相對較低。例如我們常見的百度和谷歌搜索。我們輸入關鍵詞,它們會從全網去找關鍵詞相關的網頁,並且按照一定的順序呈現給我們。

  聚焦網路爬蟲(FocusedCrawler),是指選擇性地爬取那些與預先定義好的主題相關頁面的網路爬蟲。和通用網路爬蟲相比,聚焦爬蟲只需要爬取特定的網頁,爬取的廣度會小很多。例如我們需要爬取東方財富網的基金數據,我們只需要針對東方財富網的頁面制定規則爬取就行。

  通俗地講,通用爬蟲就類似於一隻蜘蛛,需要尋找特定的食物,但是它不知道蜘蛛網的哪個節點有,所以它只能從一個節點開始尋找,遇到節點就看一下,如果有食物就獲取食物,如果這個節點指示某某節點有食物,那它就順著指示去尋找下個節點。而聚焦網路爬蟲就是這隻蜘蛛知道哪個節點有食物,它只需要規劃好路線到達那個節點就能獲取到食物。

  結束語:以上就是關於網路爬蟲是什麼的全部內容,更多內容請關注學步園。

抱歉!評論已關閉.