现在的位置: 首页 > 综合 > 正文

抓过google的数据没?

2013年10月20日 ⁄ 综合 ⁄ 共 616字 ⁄ 字号 评论关闭

因为想尝试一下从搜索结果抓点结果,别的搜索引擎都搞定了。想抓点google的数据,我配置了一下午,还是搞不定。我不懂xpath,也不懂网络爬虫,对我来说,内部的东西我不懂,我就像苍蝇一样,到处乱撞。因为这个也被鄙视N多次吧。

google的数据,爬虫是爬下来了,但是模板配置只要中间的搜索结果,我按照xpath的配置来走,怎么配置都找不到东西,连title都找不到。后来找来高手,调了半天,用firebug看看xpath的配置也没问题的。后来debug,发现通过xpath配置文件后,得到的东西是空的。而从最底层一个一个往上找,发现最底层上一次就找不到。于是,到爬虫得到的粗糙结果中去找底层上一层的xpath路径,发现没有。可把通过firebug直接得到的html拷贝代替爬虫爬下来的内容,就找到了。这个时候才发现,原来从google上爬数据时,得到的html文件和用firebug看到的结构是不一样的。

我在对baidu,soso等搜索引擎进行配置时都是通过firebug直接进行的,测试得到的结果也是对的,即firebug看到的html结果和爬虫得到的html都一样。而google却不一样。

因为爬虫得到的html文件太乱,所以不想直接从这里看结构进行配置。没想到却出了这个插曲。google为什么这么干?????

不知道是不是最近在做的东西更接近基本的网络,全是OS操作的东西,所以感觉最近特别笨,老出差子。还是因为女人怀孕傻一年?

抱歉!评论已关闭.