现在的位置: 首页 > 综合 > 正文

python正则表达式

2013年08月16日 ⁄ 综合 ⁄ 共 501字 ⁄ 字号 评论关闭

正则表达式是一种用编程方法做格式匹配过滤的工具,在信息过滤、处理的自动化中非常有用。python的正则表达式处理能力简单强大,非常好用。做个记录如下:
Python中掌管正则表达式的模块是re模块(import re)
re下的常用方法

  • re.match():从字符串头开始匹配,返回匹配对象(可以使用group方法)或None
  • re.search():从字符串的任何位置开始匹配,返回匹配对象或None.
  • re.findall():返回所有匹配的字符串列表
  • re.finditer():返回所有匹配的字符串的迭代器。
  • re.sub(‘模式’,‘替换成的字符串’,‘进行检索的字符串’)

匹配对象的内置方法:

  • group(子组号):如果参数为空,则返回所有匹配的字符串,如果有参数,则返回对应的子组字符串。
  • groups():返回所有匹配的子组字符串的集合元组

注意事项:

  • r’\bthe’表示原始字符串,如果没有r,则‘\bthe’中\b表示ASCII中的退格符。

eg:

  • 去除html标签,并提取其他内容的正则表达式写法:

m=re.search(‘(<.+>)*([^<]*)(<.+>)*’,string).group(2)

抱歉!评论已关闭.