现在的位置: 首页 > 综合 > 正文

搜索引擎与spam

2013年10月07日 ⁄ 综合 ⁄ 共 2586字 ⁄ 字号 评论关闭
搜索引擎与spam


亂世用重典,搜索引擎在与spam的長期戰爭中總是處于不利地位(這很容易理解,搜索引擎公司真正考慮搜索結果相關性和排序的只有几個人,而互聯网上整天琢磨怎么對付搜索引擎的有几万几十万webmaster),所以對spam的懲罰很嚴厲,事實上,所有的搜索引擎對它們認定的spam行為,通常只有一种懲罰:永久屏蔽。現在流行的太極鏈、鳳凰鏈這些超鏈群,就存在被當做spam的可能性。國內的搜索引擎注冊還沒有形成市場,但在國外是很發達的產業,每年以200%的速度增長,它們叫SEO,即search engine optimization 從某种角度來說,几乎是spam在推動著搜索引擎的進步,很久很久以前的一天,搜索引擎們為了搜索結果能更准确,為了能把最相關的搜索結果排在前面,發明了meta tag。起初,meta tag是很好用的,那時候,誠實的webmaster們如實的填寫网站摘要,如實的列出跟他的网站最相關的關鍵字,搜索引擎們抓取、索引、檢索這些誠實的meta tag,并作為搜索結果排序的重要依据,然后,是一段相安無事的甜蜜時光。

  歲月迅速流逝,甜蜜時光擋不住資本的力量。“一旦有适當的利潤,資本就大膽起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢踐踏一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險。” 越來越多的网站開始追求收入追求pageview,它們開始欺騙搜索引擎,它們在meta tag中塞進成堆的關鍵字,塞進跟自己的网站內容無關的但是流行的關鍵字。群眾的力量是巨大的,搜索引擎的相關性被破坏了。。。

  搜索引擎們對作弊者開始第一輪反擊,但是無力的,它們的做法是:在排序時更多的依賴网頁正文而不是meta tag。

  作弊者以進為退,開始第二輪攻擊,他們在正文中大量使用与网頁背景相同顏色的關鍵字,在image tags中塞進關鍵字,在网頁代碼加入“看不見的注釋”。

  搜索引擎開始第二輪反擊,它們找到了有效的方法來過濾這些看不見的文字,取得了小小的胜利。

  善良是善良者的墓志銘,卑鄙是卑鄙者的通行證”,作弊者眼見常規武器無效,開始利用搜索引擎的真誠。搜索引擎的spider是互聯网上的謙謙君子,它們訪問任何网站都會自報身份,并且查閱网站的訪問規定,完全按照各网站的規矩來辦事。于是,作弊者精心制作了兩個网站,一個專供网友訪問,一個專供搜索引擎訪問,每當發現訪問請求來自搜索引擎時,就返回專供搜索引擎看的能令搜索引擎滿意的网頁,而正常訪問者只能看到另一個截然不同的网站。這种方法叫做cloaking。這第三輪攻擊,作弊者大胜。

  1998年3月1日,分別在AltaVista、Excite、HotBot、Infoseek、Lycos搜索當時的熱門詞匯“Monica Lewinsky”,各搜索引擎首頁居然分別有50%、30%、30%、10%、50%的搜索結果是spam。由此可見當時作弊者們猖獗至何等程度!

  搜索引擎們,因為它們道德上的弱點,因為有些手段不愿用,所以無法完全辨別cloaking网站,也就無法完全對付作弊者。搜索引擎能做的只是嚴厲的懲罰被發現的spam,以警告作弊者,發展到今天的結果是,所有的搜索引擎對它們認定的spam行為,只有一种懲罰:永久屏蔽。

  但是,嚴厲的懲罰從來只是無能者推卸責任的借口,而不能真正的改善狀況。“一旦有适當的利潤,資本就大膽起來……有50%的利潤,他就鋌而走險;有100%的利潤,他就敢踐踏一切人間法律;有300%的利潤,他就敢犯任何罪行,甚至冒絞首的危險。” 作弊者從來就不怕懲罰,當互聯网狂潮來臨,追求pageview的作弊者們更是肆無忌憚。

  無可奈何的搜索引擎,只有去尋找新的相關性排序依据,只有去尋找作弊者不能控制的排序依据,只有去网站以外尋找排序的依据,搜索引擎,真的別無選擇。

  于是,開始出現了超鏈分析,出現了Pagerank。一個网頁,說它自己是什么,它就是什么嗎?物以類聚,如果它說的是真的,那么指向這個网頁的鏈接應該來自具有同類內容的网頁,所以指向這個网頁的鏈接可以被用來驗證這個网頁的相關性。

  誰,最不可能出于貪婪而作弊?誰,最可能如實提供网頁內容?是政府网站,和教育网站。所以,在超鏈分析中,gov和edu网站通常被賦予較高的排名,來自gov和edu的超鏈也有更高的价值。

  但是PageRank也帶來了一些不請自來的錯誤排序因素:新站不如舊站,小站不如大站,專業站不如通俗站。一個新网站,一個小网站,一個專業网站,它的內容再好,因為不可能迅速得到大量的超鏈,所以無法得到合适的排名,即使它的內容是無与倫比的。而一個歷史悠久的老网站、大网站、通俗网站,即使它已久不更新,或者內容遠不如某些小网站,卻可以獲得很高的排名。

  當超鏈分析剛出來時,SEO界一片悲觀論調,認為這是無法作弊的,SEO業完蛋了(就象近期各搜索引擎紛紛收費,SEO業更覺得自己前景慘淡,其實雖然搜索引擎排名市場的大頭要給搜索引擎們,但SEO還是有錢賺的,畢竟,只有勞動模范有下崗的可能,從來沒听說騙子會失業的),但是,道高一尺魔高一丈,很快SEO們發現了對付超鏈分析的方法:你不是喜歡鏈接么,好,我就做大量的网站,准備大量的鏈接,哪個客戶出錢,我所有的网頁都給它一個鏈接。這种SEO方法被稱為link firm。這种方法剛出現時還算有效,不過很快就不行了,因為一個网站是否有大量來自內容不相干网頁的鏈接,或者一個不是搜索引擎的网站給出大量不相干的鏈接還不難判斷。而每當發現一個link firm,那些使用了該link firm的网站就全部死翹翹。我在wmw的論壇上看過一個家伙的帖子,說他的网站被封了,但他覺得自己很干淨,沒有做spam,所以主動去問Google封他网站的原因,原來僅僅是因為他用了一個link firm,真是可怜。

  一种搜索結果的排序算法,如果更多的是基于概念、主題、基于网頁內容的質量,而不是网絡上互相鏈來鏈去的超鏈的重要性,那么搜索結果的相關性在本質上會更好。

  只是,讓計算机學會理解和評价网頁內容嗎?好像還是很遙遠的事情;花大量的人力一個個网頁評估么?這肯定是虧本的商業行為,只有靠志愿者。ODP庶几近之,但也只能點擊,用關鍵字搜索時還是無法跟超鏈分析的結果相比。

抱歉!评论已关闭.