Python学习笔记—PyQuery库的使用总结
一、简介
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的。他的官方文档地址是:http://packages.python.org/pyquery/。今天重新看了一遍整个文档,把它的一些使用方法整理了一下,做个记录。
二、使用方法
1
|
from pyquery import PyQuery |
1.可加载一段HTML字符串,或一个HTML文件,或是一个url地址,例:
1
2
3
|
d = pq( "<html><title>hello</title></html>" ) d = pq(filename = path_to_html_file) |
注意:此处url似乎必须写全
2.html()和text() ——获取相应的HTML块或文本块,例:
1
2
3
|
p = pq( "<head><title>hello</title></head>" ) p( 'head' ).html() #返回<title>hello</title> p( 'head' ).text() #返回hello |
3.根据HTML标签来获取元素,例:
1
2
3
4
|
d = pq( '<div><p>test ) d( 'p' ) #返回[<p>,<p>] print d( 'p' ) #返回<p>test print d( 'p'
|