现在的位置: 首页 > 综合 > 正文

python 中的正则的使用技巧

2014年09月05日 ⁄ 综合 ⁄ 共 758字 ⁄ 字号 评论关闭

   使用python已经有一段时间了,它的正则的功能非常的强大。在用python的正则之前,我一直用的是grep的正则,grep的正则,它没有从已经匹配的串中提取特殊的字符串的功能。如:

  <a href="http://www.google.com" target="blank">搜索引擎</a>,如果我们匹配了这个<a>标签,我们要把href中的网址内容提取出来,egrep可能就无能为力了。在这方面,python就擅长了。在这里,我们重点介绍python中re模块中的sub函数。

 sub(pattern, repl, string, count=0, flags=0)

    pattern就是我们熟悉的正则表达式了,repl表达,被匹配的串用repl来替换。string表示原串。count表示,替换几个,默认count=0,替换所有。flags表示可选的参数。  如:flags=re.IGNORECASE。 具体的参数,可以是re中的静态变量。

  下面有一个例子,具体说明sub的使用

     有如下的字符串,<a href="/view/123.html" target="blank_"><b>金融机构</b></a> ,如何把a标签去掉,但要保留<b>金融机构</b>

     如果单纯写正则的话,很难做到。但sub提供了这样一个功能。

  html='<a href="/view/123.html" target="blank_"><b>金融机构</b></a>'

  content=re.sub('(?isu)<a[^>]+href=[^>]+>(.*?)</a>','\\1',html)

  \1,表达group 1中的内容保留。于是,我们匹配了整个a标签,但要保留group 1,即()中的内容。这样,我们就达到了我们的目的了。

  

抱歉!评论已关闭.