Java与正则表达式（2年级2）

现在的位置: 首页 > 综合 > 正文

Java与正则表达式（2年级2）

2013年12月05日 ⁄ 综合 ⁄ 共 2287字 ⁄ 字号小中大 ⁄ 评论关闭

JAVA与正则表达式（2年级2）

学习正则表达式，我本来也按照正则表达式的组件一个个地攻。Java中写的Summary of regular-expression constructs也不过6页纸，花上1天半天的时间一个个测试，学得也差不多了。可惜yqj2065的记性好、忘性大，3天之后记得几个最简单的东西了。惨。

MSDN上的正则表达式介绍 就是完整的教材，yqj2065又学习了一次（JScript），10天后又忘得7788了。

现在我变个花样考虑：如果我设计regex，按照（2年级之1）中的5点能不能搞定呢？把核心5点记住先：

1. 基本正则表达式：一个单字符a（其中a 在正规字符的字母表∑中），以及元字符或元字符组成。可能是： L (a) = {a}； L (ε) ={ε}； L (Ф) = {}。

r和s 均是正则表达式时：

2. r | s表达式： L (r | s) = L (r) ∪ L (s)。

3. rs表达式： L (r s) = L (r) L (s)。

4. r*表达式： L (r*) = L (r) *。

5. (r）格式的表达式： L ( (r)) = L (r)，括号并不改变语言，它们只调整运算的优先权。闭包>连结>并集。

我不用脑袋，用5个指头记它们。那个指头忘性大，就打那个指头。单字符、并集 |、连结、闭包 *、括号()。

§3字母表∑

单字符依赖于字母表∑，Java支持Unicode。所有，∑＝Unicode。比如说：

String str=” 单字符依赖于字母表”，regex是字。效果不错。
2-2-1

我想使用EditPad Pro方便一些，它却不支持Unicode。也罢，本来就不准备现在研究它（3年级再搞。），先搞定ASCII - The American Standard Code for Information Interchange，好像在汇编语言中经常查一下。现在都有些模糊了。

ASCII大概分成这几个部分：可打印和不可打印字符。

l 不可打印字符Non-Printable Characters：Java中有几个不可打印字符，能放在正则表达式中，这些东西倒是有点奇怪。

l 可打印字符：所有大写和小写字母、所有数字、所有标点符号和一些其他符号。这里的关键在于有一些可打印字符with special meanings，成为了元字符（metacharacters）。

所有的ASCII字符中，我们千调万选找了一个最特殊的字符backslash /，作为转义escape开关。虽然与Java的转义符号一样，我还是奇怪为什么选它而不选#。它很容易与除号/混淆，另外M$ OS中的目录常常是E:/Regex/1/2，我听说C++编程时，其regex要用E:////Regex////1去匹配，不知在Java的源代码中，怎么样。

核心1点说明：单一的a、x、#，’，” 都是基本的regex。单一的元字符都不是基本的regex。

练习：str＝” b!c@d#e$f%g^h&j&k*l”+

”(m)n_o+p|q/r=s-t/u.v,W?x>y<z/"aa/'”

①regEx="#"（或/"、/’、 r、 //、 >、n、）注意：Java的源代码中String要使用转义/"而且regEx＝"/""，但正则表达式是"如程序：

import java.util.regex.*;

class Regex1{

public static void main(String args[]) {

String str="For my/" money/" ";

String regEx="/""; //

Pattern p=Pattern.compile(regEx);

Matcher m=p.matcher(str);

boolean result=m.find();

System.out.println(result);

}

这里的要点是：Java语言本身对源代码中的一些字符/"要经过编译处理，之后正则表达式引擎才得到一个regexp"。这也是C++用4个backslash匹配一个/文本字符的原因。我们要区别Java语言与正则表达式各自的要求。

在使用各种正则表达式练习器时，一定要注意。
2-2-2

§4并集

核心2点是a|b。在文档中称为"character class", 也叫 "character set"。这就不好翻译了，字符集容易与ASCII字符集等混淆，字符类？不伦不类。也许叫字符并集比较好，

① 对于文本Fororarafar，如何匹配for和far呢？记住并集运算的优先级最低。因此f(o|a)r是正确答案，当然，f(a|o)r也行，它们的顺序无所谓。但 fo|ar将可以（可以！）匹配fo和ar。

② 如果有regex如f(a|s|d|f|g|h|j|l)r，人们常常喜欢简单一点，写成f[asdfghjl]r。如此一来，多了两个元字符[和]。

③ 如果有regex如f[123456]r，人们简单的写成f[1-6]r。注意，连字符不是元字符，仅仅在[ ]之间而且在有顺序的东西之间才有特殊语义，如[1-5a-yA-F]。在[ ]之外，hyphen-是普通字符。

④ 如果我们希望全选呢？有一个非常好用又经常误用的元字符. 我们在后面举例说明。

⑤ 如果我们希望反选呢？比如除a、b、c外的所有f⊙r，用集合运算表示就相当于∑-{a,b,c}。我们写出[^abc] ，注意：caret^只有紧跟在[后面才表示这个语义。对于文本f^rfarfbrffhrf^^r ，f[^abc]r可以匹配f^r和

返回

【上篇】Ruby之Class 【下篇】gridview按照表头排序作者: foulard 该日志由 foulard 于10年前发表在综合分类下，最后更新于 2013年12月05日. 转载请注明: Java与正则表达式（2年级2） | 学步园 +复制链接抱歉!评论已关闭.

学步园

Java与正则表达式（2年级2）

JAVA与正则表达式（2年级2）

§3字母表∑

§4并集

作者: foulard

书签

最新文章New

本站推荐

返回首页