Python写的百度贴吧的网络爬虫

现在的位置: 首页 > 综合 > 正文

2019年03月14日 ⁄ 综合 ⁄ 共 416字 ⁄ 字号小中大 ⁄ 评论关闭

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。

项目内容：

用Python写的百度贴吧的网络爬虫。

使用方法：

新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。

程序功能：

将贴吧中楼主发布的内容打包txt存储到本地。

原理解释：

首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后url发生了一点变化，变成了：

http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1

可以看出来，see_lz=1是只看楼主，pn=1是对应的页码，记住这一点为以后的编写做准备。

这就是我们需要利用的url。

接下来就是查看页面源码。

首先把题目抠出来存储文件的时候会用到。

可以看到百度使用gbk编码，标题使用h1标记：

http://blog.csdn.net/pleasecallmewhy/article/details/8934726

【上篇】今日博客总访问量为8888
【下篇】招聘总结

抱歉!评论已关闭.

返回首页

（其他合作也可洽谈）