python 中的正则的使用技巧

现在的位置: 首页 > 综合 > 正文

2014年09月05日 ⁄ 综合 ⁄ 共 758字 ⁄ 字号小中大 ⁄ 评论关闭

使用python已经有一段时间了，它的正则的功能非常的强大。在用python的正则之前，我一直用的是grep的正则，grep的正则，它没有从已经匹配的串中提取特殊的字符串的功能。如:

<a href="http://www.google.com" target="blank">搜索引擎</a>,如果我们匹配了这个<a>标签，我们要把href中的网址内容提取出来，egrep可能就无能为力了。在这方面,python就擅长了。在这里，我们重点介绍python中re模块中的sub函数。

sub(pattern, repl, string, count=0, flags=0)

pattern就是我们熟悉的正则表达式了，repl表达，被匹配的串用repl来替换。string表示原串。count表示，替换几个，默认count=0，替换所有。flags表示可选的参数。如：flags=re.IGNORECASE。具体的参数，可以是re中的静态变量。

下面有一个例子，具体说明sub的使用

有如下的字符串，<a href="/view/123.html" target="blank_">金融机构</a> ，如何把a标签去掉，但要保留金融机构

如果单纯写正则的话，很难做到。但sub提供了这样一个功能。

html='<a href="/view/123.html" target="blank_">金融机构</a>'

content=re.sub('(?isu)<a[^>]+href=[^>]+>(.*?)</a>','\\1',html)

\1，表达group 1中的内容保留。于是，我们匹配了整个a标签，但要保留group 1，即()中的内容。这样，我们就达到了我们的目的了。

抱歉!评论已关闭.

学步园