这是以前学习
正则表达式的笔记。
1. 字符:
1). 匹配任何单个字符;
2)字母和数字以及特殊字符;
3)[abc] 匹配括号中的任何一个字符;常用的有:[A-Za-z] [0-9]
4)特殊字符:必须转义,比如 \\- 表示 - \\+ 表示+ \\表示 \
2. 重复次数:
1)?匹配0至1个在它之前的字符,比如 ab?可以匹配 a, ab(?问号表示有没有)
2)* 匹配0至多个在它之前的字符,比如 ab* 可以匹配 a, ab, abbb等等(*:0或多)
3)+ 匹配1至多个在它之前的字符,比如 ab+ 可以匹配 ab, abbbb等等(+:1或多)
4){n},{n,},{n,m}分别表示匹配它之前的字符n次,至少n次,n次到m次
所以第四个可以代替前面的三个: ?= {0,1} * = {0,} + = {1,} 这样含义更清晰
3. 匹配开始和结束:^ , $
4. | 表示逻辑或运算: 比如 ab|cd 表示匹配 ab或者cd, (a|b)cd表示匹配acd或者bcd
5. () 有两种作用:
1> 指定优先级 比如,(ab)*表示匹配0或多组ab
2> 将()之间的表达式定义为一个“组”(group),并且将匹配这个组的字符保存到一个临时区域,以便后面将它提取出来,经常用于字符串的提取。
6. \
转义字符
7. 特殊字符:
就是上面出现的那些字符:. [ - ] \ ? * + { } ( ) | ^ $ 一起15个。
8.简写形式:
1) \d 一个数字,等同于[0-9]
2) \D 一个非数字,等同于[^0-9]
3) \w 一个字母或者数字以及下划线,等同于[a-zA-Z_0-9]
4) \W 一个非字母数字, 等同于[^\w]
5) \s 一个换行符,Tab制表符,空格等等空白字符
6) \S 一个非空白字符
7) \t Tab制表符
8) \n 换行符
掌握了上面这些知识,然后将
他们结合起来运用,就可以对付任何
正则表达式的问题了。
注意规律:
1)字符的匹配,比如 . \d \D \w \W \s \W \t \n [A-Z]等等,都是指单个字符,也就是一个字符。
而字符的数量,重复次数等等,都是另外用? * + {n} {n,} {n,m}单独来指明的。
也就是说字符的和字符的数量二者是分开来指定的。
理解这一点十分关键!!!!
2)匹配采取的是贪婪匹配原则,也就是会一直匹配下次,直到不能再匹配。比如:
class="java">String regEx = ".+/(.+\\..+)$"; // 表示带有文件后缀
String str = "C:/Java/jdk1.7/README.HTML";
Pattern p1 = Pattern.compile(regEx2);
Matcher m1 = p1.matcher(str);
if(m1.find()){
System.out.println(m1.group(1)); // 组提取字符串
}
打印出来的结果是:README.HTML 而不是 Java/jdk1.7/README.HTML
也就是说:".+/(.+\\..+)$" 表示要匹配到最后一个不能再匹配才停止。
再比如:
String reg = ".+(ab.+)$";
String s = "123ab456ab789";
Pattern p2 = Pattern.compile(reg);
Matcher m2 = p2.matcher(s);
if(m2.find()){
System.out.println(m2.group(1)); // 组提取字符串
}
输出结果是 ab789,而不是ab456ab789