抓过google的数据没？

现在的位置: 首页 > 综合 > 正文

抓过google的数据没？

2013年10月20日 ⁄ 综合 ⁄ 共 616字 ⁄ 字号小中大 ⁄ 评论关闭

因为想尝试一下从搜索结果抓点结果，别的搜索引擎都搞定了。想抓点google的数据，我配置了一下午，还是搞不定。我不懂xpath，也不懂网络爬虫，对我来说，内部的东西我不懂，我就像苍蝇一样，到处乱撞。因为这个也被鄙视N多次吧。

google的数据，爬虫是爬下来了，但是模板配置只要中间的搜索结果，我按照xpath的配置来走，怎么配置都找不到东西，连title都找不到。后来找来高手，调了半天，用firebug看看xpath的配置也没问题的。后来debug，发现通过xpath配置文件后，得到的东西是空的。而从最底层一个一个往上找，发现最底层上一次就找不到。于是，到爬虫得到的粗糙结果中去找底层上一层的xpath路径，发现没有。可把通过firebug直接得到的html拷贝代替爬虫爬下来的内容，就找到了。这个时候才发现，原来从google上爬数据时，得到的html文件和用firebug看到的结构是不一样的。

我在对baidu，soso等搜索引擎进行配置时都是通过firebug直接进行的，测试得到的结果也是对的，即firebug看到的html结果和爬虫得到的html都一样。而google却不一样。

因为爬虫得到的html文件太乱，所以不想直接从这里看结构进行配置。没想到却出了这个插曲。google为什么这么干？？？？？

不知道是不是最近在做的东西更接近基本的网络，全是OS操作的东西，所以感觉最近特别笨，老出差子。还是因为女人怀孕傻一年？

【上篇】添加数据到图表中
【下篇】Windows中一些与Thread有关的内部细节

作者: pancreas

该日志由 pancreas 于11年前发表在综合分类下，最后更新于 2013年10月20日.
转载请注明: 抓过google的数据没？ | 学步园 +复制链接

抱歉!评论已关闭.

学步园

抓过google的数据没？

作者: pancreas

书签

最新文章New

本站推荐

返回首页