阅读笔记-精通正则表达式-第2章-入门示例及扩展-2

现在的位置: 首页 > 综合 > 正文

阅读笔记-精通正则表达式-第2章-入门示例及扩展-2

2013年01月29日 ⁄ 综合 ⁄ 共 3119字 ⁄ 字号小中大 ⁄ 评论关闭

5. 使用环视功能为数值添加逗号

    四种类型的环视：
    · 肯定逆序环视    (?<= ......)      子表达式能够匹配左侧的文本
    · 否定逆序环视    (?<! ......)      子表达式不能匹配左侧的文本
    · 肯定顺序环视    (?= ......)        子表达式能够匹配右侧的文本
    · 否定顺序环视    (?!  ......)        子表达式不能匹配右侧的文本
     对于肯定顺序环视，从左至右查看文本，尝试匹配子表达式，如果能够匹配，就返回匹配成功信息。例如：(?=/d)表示如果当前位置右边的字符是数字则匹配成功。对于肯定逆序环视，从右至左查看文本。
     需要注意的是，四种环视匹配的都是位置，而不是某个字符。比如：对于字符串"Jeffrey"，表达式"(?=rey)"表示匹配右边是rey的位置，即Jeff与ref之间的位置。对与这个位置，如果使用字符串修改功能，就实现了对字符串的信息添加。
     $value =~ s/(?:\d)(?:\d\d\d)+$/,/g    匹配的位置为：左侧是数字，右侧到结束位置数字个数正好是3的倍数。
     以数字12345678为例：第一次匹配到2与3之间的位置，12,345678，第二次匹配到5与6之间的位置，12,345,678。
     有一种匹配$value =~ s/(\d)(\d\d\d)+$/$1,$2/g，注意这个表达式，第一次匹配到的是12345678这个整个字符串，$1=12,$2=345678，修改后为12,345678，由于第一次直接匹配到了整个字符串，所以匹配结束了，这里与环视的匹配有很大的不同，环视匹配只匹配到那个位置。

6. Text-to-HTML转换

通过这个例子，发现原来正则表达式还可以写的错落有致。代码如下：

undef $/;  # 进入“文件读取”模式
$text =<>; # 读取命令行中指定的第一个文件名
$text =~ s/&/&/g;    # 把基本的HTML
$text =~ s/</</g;     # 字符&、<和>
$text =~ s/>/>/g;     # 进行HTML转义

$text =~ s/^\s*$/<p>/mg  # 划分段落

# 转换为链接形式
$text =~ s{
  \b
  # 把地址保存到$1
  {
    \w[-.\w]*                                 # username
    \@
    [-a-z0-9]+(\.[-a-z0-9]+)*\.(com|edu|info) # hostname
  }
  \b
}{<a href="mailto:$1">$1</a>}gix

print $text; #最后，显示HTML文本

    · $text =~ s/^\s*$/<p>/mg # 划分段落
      /g是全局匹配符
      /m是增强行锚点，即^和$会从字符串模式切换到逻辑行模式，即对于字符串模式，一个文本只能有一个开始^和一个结束$，但是在逻辑行模式中，其中的每个行都会有各自的开始^和结束$。
    · $text =~ s{regex}{replacement}modifier
      实际上，Perl支持用户自定义分割符，默认是 s/.../.../，也可以定义为s{...}{...}，或者S|...|...|
      对于s{...}{...}由于分割符不选取了{}，“/”就不再作为分割符了，因此</a>中的“/”就可以直接使用了，不必进行转义了。
    · /x修饰符
      代码中的正则表达式如果不进行换行就会很长，读起来，注释起来都很麻烦，/x修饰符使得用户能够以“宽松排列”编排这个表达式，增强可读性。而且允许在表达式中出现，以#开头标记的注释。加上/x修饰符后，表达式中的空白字符就都变为“忽略自身”元字符。如果要用普通的空格等字符，可以对其进行转义，不转义的话，就是被忽略的元字符，此外\s总是能够匹配空白字符，这一点是没有变的。
    · 总结
    由于HTML标签中有很多</a>之类的标签，使用s{...}{...}可以省去对/的转义
    当正则表达式很长的时候，/x使得表达式可以换行且可以加入注释
    当需要匹配逻辑行的时候，/m使得^和$可以匹配逻辑行的开始和结束。

7. 处理重复单词

要求将每句话中连续重复出现的单词进行高亮显示，并且如果某该行有重复单词出现，在该行的开始标出重复出现单词所在的文件。

$/ = ".\n"; # 设定特殊的“块模式”；一块文本的终结为点号和换行号的结合体

while(<>)
{
  next unless {
      # 匹配一个单词：
       \b              # 单词的开始位置
       ( [a-z]+ )      # 单词存储在$1
      # 匹配单词后面的任意多个空白字符和/或tag
      (               # 空白存储在$2
          (?:
              \s          # 空白字符
              |           # |
              <[^>]+>     # <TAG>形式的tag
           )+         # 至少需要出现一次
      )
      # 再次匹配第一个单词
       (\1\b)
  }
  # 上面是正则表达式，下面是replacement字符串，然后是修饰符、/i、/g和/x
  {\e[7m$1\e[m$2\e[7m$3\e[m}igx
  s/^(?:[^\e]*\n)+//mg; # 去掉所有未标记的行
  s/^/$ARGV:  /mg;      # 在每行开头加上文件名
  print;
}

    · $\ = “.\n”
      这里的$\是特殊变量，一起一行是通过换行符决定的，比如\n，这样快模式下，是通过.\n决定的。这样一句话可能跨越多个行。
    · while(<>)和print
      <>能够将字符串赋值给一个特殊的变量，并且这个变量保存了s/.../...和print作用的默认字符串。
    · next unless代表如果当前代码块没有执行，代码块下面的代码也不必执行，类似于if() {} else continue;（C++中）
    · {\e[7m$1\e[m$2\e[7m$3\e[m}igx
      \e[7m是高亮字符的起始标记，\e[m是高亮字符的终止标记。
    · s/^(?:[^\e]*\n)+//mg;
      由于有重复单词的行中都嵌入了高亮标记代码，这里只要找到没有高亮标记的行，然会替换为空就可以实现删除没有重复单词的行乐。
    · s/^/$ARGV:  /mg;      # 在每行开头加上文件名
      ARGV提供了输入文件的名字
    · 总结
      代码直接来自书中，实际能否正常运行没有实际测试，不能保证。不过代码本身介绍了很多的知识，尤其是/m、/x修饰符，加上以前的/g、/i修饰符，对正则表达式的了解加深了。

8. 总结

第二章通过一些例子，展示了很多正则的具体内容，对PERL也进行了一定的介绍。现在学到了很多知识：元字符含义，转义，$text =~ m/.../.../... $text =~ s/.../.../...，修饰符：/i、/g、/m、/x，环视功能等等。

【上篇】【Author : DS】{Regionals 2011, North America – Southeast USA} C题解题报告
【下篇】自己手动创建dataset的方法（不用从数据库倒入）

作者: baggy

该日志由 baggy 于11年前发表在综合分类下，最后更新于 2013年01月29日.
转载请注明: 阅读笔记-精通正则表达式-第2章-入门示例及扩展-2 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

阅读笔记-精通正则表达式-第2章-入门示例及扩展-2

作者: baggy

书签

最新文章New

本站推荐

返回首页