如何利用Python爬取网页？

现在的位置: 首页 > 综合 > 正文

如何利用Python爬取网页？

2020年02月05日 ⁄ 综合 ⁄ 共 1170字 ⁄ 字号小中大 ⁄ 评论关闭

如今，网络爬虫早已被广泛应用在爬取网页上。虽然有许多编程语言都可以写爬虫，但是Python绝对是最好的选择。这是因为Python作为一种新手友好的语言，上手简单的同时标准库齐全，还有丰富的各种开源库，开发效率更是不用说，高于绝大多数语言。那么如何利用Python爬取网页呢？或者换句话说，怎样编写Python语言使用网络爬虫呢？

1、编写执行代码

首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

import requests

from bs4 import BeautifulSoup

iurl = 'http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res = requests.get(iurl)

res.encoding = 'utf-8'

#print(len(res.text))

soup = BeautifulSoup(res.text,'html.parser')

#标题

H1 = soup.select('#artibodyTitle')[0].text

#来源

time_source = soup.select('.time-source')[0].text

#来源

origin = soup.select('#artibody p')[0].text.strip()

#原标题

oriTitle = soup.select('#artibody p')[1].text.strip()

#内容

raw_content = soup.select('#artibody p')[2:19]

content = []

for paragraph in raw_content:

content.append(paragraph.text.strip())

'@'.join(content)

#责任编辑

ae = soup.select('.article-editor')[0].text

2、观看视频学习

如果大家觉得光是文字不足以弄清Python爬取网页的技巧，也可以免费观看学步园的学习视频。该课程视频主要讲述利用Python语言实现网络爬虫的技巧，学完这门课程后，大家可以学习到scrapy的操作，制作属于自己的爬虫，并了解网页解析的技巧。下面是视频课程主要内容：

第一章网络爬虫简介

（1）网络爬虫的定义

（2）URL的概述

（3）url请求的基本操作

（4）百度贴吧小爬虫-上

（5）百度贴吧小爬虫-下

（6）正则表达式

第二章 scrapy制作小爬虫

（1）内涵段子小爬虫上

（2）回顾

（3）内涵段子小爬虫下

（4）scrapy制作小爬虫上

（5）scrapy制作小爬虫下

相信大家看完学步园的网络爬虫课程，就能轻松利用Python爬取网页。对Python爬虫感兴趣的同学，还在等什么，现在就上学步园官网，开始观看视频学习吧！

【上篇】UI平面设计在线就业班靠不靠谱？
【下篇】数据分析师证书含金量高不高？

作者: [db:作者]

该日志由 [db:作者] 于4年前发表在综合分类下，最后更新于 2020年02月05日.
转载请注明: 如何利用Python爬取网页？ | 学步园 +复制链接
关键字: [db:标签]

抱歉!评论已关闭.

学步园

如何利用Python爬取网页？

作者: [db:作者]

书签

最新文章New

本站推荐

返回首页