Java正则表达式 总结
来源:互联网 发布:opencv sfm算法 编辑:程序博客网 时间:2024/05/21 16:22
转载自:http://blog.sina.com.cn/s/blog_3c6ecea90100qx6g.html
用Google搜索“Java正则表达式”,并不能轻易地找出特别好的关于java正则表达式的总结的文章,我看了几个,转载总结下吧:
Java正则表达式的解释说明 : http://www.blogjava.net/Werther/archive/2009/06/10/281198.html
揭开正则表达式的神秘面纱:
Java正则表达式详解 :http://edu.yesky.com/edupxpt/18/2143018.shtml
表达式意义:
1.字符
x
\\
\0n
\0nn
\0mnn
\xhh
\uhhhh
\t
\n
\r
\f
\a
\e
\cx
2.字符类
[abc]
[^abc]
[a-zA-Z]
[a-d[m-p]]
[a-z&&[def]]
[a-z&&[^bc]]
[a-z&&[^m-p]]
3.预定义字符类(注意反斜杠要写两次,例如\d写为\\d)任何字符
(与行结束符可能匹配也可能不匹配)
\d
\D
\s
\S
\w
\W
4.POSIX 字符类(仅US-ASCII)(注意反斜杠要写两次,例如\p{Lower}写为\\p{Lower})
\p{Lower}
\p{Upper}
\p{ASCII}
\p{Alpha}
\p{Digit}
\p{Alnum}
\p{Punct}
\p{Graph}
\p{Print}
\p{Blank}
\p{Cntrl}
\p{XDigit}
\p{Space}
5.java.lang.Character 类(简单的 java 字符类型)
\p{javaLowerCase}
\p{javaUpperCase}
\p{javaWhitespace}
\p{javaMirrored}
6.Unicode 块和类别的类
\p{InGreek}
\p{Lu}
\p{Sc}
\P{InGreek}
[\p{L}&&[^\p{Lu}]]
7.边界匹配器
^
$
\b
\B
\A
\G
\Z
行结束符 是一个或两个字符的序列,标记输入字符序列的行结尾。
以下代码被识别为行结束符:
‐新行(换行)符 ('\n')、
‐后面紧跟新行符的回车符 ("\r\n")、
‐单独的回车符 ('\r')、
‐下一行字符 ('\u0085')、
‐行分隔符 ('\u2028') 或
‐段落分隔符 ('\u2029)。
\z
当编译模式时,可以设置一个或多个标志,例如
Pattern pattern =Pattern.compile(patternString,Pattern.CASE_INSENSITIVE +Pattern.UNICODE_CASE);
下面六个标志都是支持的:
‐CASE_INSENSITIVE:匹配字符时与大小写无关,该标志默认只考虑US ASCII字符。
‐UNICODE_CASE:当与CASE_INSENSITIVE结合时,使用Unicode字母匹配
‐MULTILINE:^和$匹配一行的开始和结尾,而不是整个输入
‐UNIX_LINES: 当在多行模式下匹配^和$时,只将'\n'看作行终止符
‐DOTALL: 当使用此标志时,.符号匹配包括行终止符在内的所有字符
‐CANON_EQ: 考虑Unicode字符的规范等价
8.Greedy 数量词
X?
X*
X+
X{n}
X{n,}
X{n,m}
9.Reluctant 数量词
X??
X*?
X+?
X{n}?
X{n,}?
X{n,m}?
10.Possessive 数量词
X?+
X*+
X++
X{n}+
X{n,}+
X{n,m}+
Greedy,Reluctant,Possessive的区别在于:(注意仅限于进行.等模糊处理时)
greedy量词被看作“贪婪的”,因为它第一次就读入整个被模糊匹配的字符串。如果第一个匹配尝试(整个输入字符串)失败,匹配器就会在被匹配字符串中的最后一位后退一个字符并且再次尝试,重复这个过程,直到找到匹配或者没有更多剩下的字符可以后退为止。根据表达式中使用的量词,它最后试图匹配的内容是1个或者0个字符。
但是,reluctant量词采取相反的方式:它们从被匹配字符串的开头开始,然后逐步地一次读取一个字符搜索匹配。它们最后试图匹配的内容是整个输入字符串。
最后,possessive量词总是读完整个输入字符串,尝试一次(而且只有一次)匹配。和greedy量词不同,possessive从不后退。
11.Logical 运算符
XY
X|Y
(X)
12.Back 引用
\n
捕获组可以通过从左到右计算其开括号来编号。例如,在表达式 ((A)(B(C)))中,存在四个这样的组:
1
2
3
4
在表达式中可以通过\n来对相应的组进行引用,例如(ab)34\1就表示ab34ab,(ab)34(cd)\1\2就表示ab34cdabcd。
13.引用
\
\Q
可以匹配ab{|}\\
\E
14.特殊构造(非捕获)
(?:X)
(?idmsux-idmsux)
idmsux说明如下:
‐i CASE_INSENSITIVE :US-ASCII 字符集不区分大小写。(?i)
‐d UNIX_LINES : 打开UNIX换行符
‐m MULTILINE :多行模式(?m)
UNIX下换行为\n
WINDOWS下换行为\r\n(?s)
‐u UNICODE_CASE : Unicode 不区分大小写。(?u)
‐x COMMENTS:可以在pattern里面使用注解,忽略pattern里面的whitespace,以及"#"一直到结尾(#后面为注解)。(?x)例如(?x)abc#asfsdadsa可以匹配字符串abc
(?idmsux-idmsux:X)
(?=X)
(?!X)
(?<=X)
(?(?>X)
(?=X)与(?>X)的区别在于(?>X)是不回溯的。例如被匹配的字符串为abcm
当表达式为a(?:b|bc)m是可以匹配的,而当表达式是a(?>b|bc)时是不能匹配的,因为当后者匹配到b时,由于已经匹配,就跳出了非捕获组,而不再次对组内的字符进行匹配。可以加快速度。
注意:有评论说最后一句说的有问题——“这里有问题!abcm也可被a(?>b|bc)匹配!”
引言
1. 正则表达式规则
1.1 普通字符
1.2 简单的转义字符
表达式
可匹配
\r, \n
代表回车和换行符
\t
制表符
\\
代表 "\" 本身
表达式
可匹配
\^
匹配 ^ 符号本身
\$
匹配 $ 符号本身
\.
匹配小数点(.)本身
1.3 能够与 '多种字符' 匹配的表达式
表达式
可匹配
\d
任意一个数字,0~9 中的任意一个
\w
任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个
\s
包括空格、制表符、换页符等空白字符的其中任意一个
.
小数点可以匹配除了换行符(\n)以外的任意一个字符
1.4 自定义能够匹配 '多种字符' 的表达式
表达式
可匹配
[ab5@]
匹配 "a" 或 "b" 或 "5" 或 "@"
[^abc]
匹配 "a","b","c" 之外的任意一个字符
[f-k]
匹配 "f"~"k" 之间的任意一个字母
[^A-F0-3]
匹配 "A"~"F","0"~"3" 之外的任意一个字符
1.5 修饰匹配次数的特殊符号
表达式
作用
{n}
表达式重复n次,比如:"\w{2}"相当于 "\w\w";"a{5}"相当于 "aaaaa"
{m,n}
表达式至少重复m次,最多重复n次,比如:"ba{1,3}"可以匹配"ba"或"baa"或"baaa"
{m,}
表达式至少重复m次,比如:"\w\d{2,}"可以匹配"a12","_456","M12344"...
?
匹配表达式0次或者1次,相当于 {0,1},比如:"a[cd]?"可以匹配"a","ac","ad"
+
表达式至少出现1次,相当于 {1,},比如:"a+b"可以匹配"ab","aab","aaab"...
*
表达式不出现或出现任意次,相当于 {0,},比如:"\^*b"可以匹配"b","^^^b"...
1.6 其他一些代表抽象意义的特殊符号
表达式
作用
^
与字符串开始的地方匹配,不匹配任何字符
$
与字符串结束的地方匹配,不匹配任何字符
\b
匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符
表达式
作用
|
左右两边表达式之间 "或" 关系,匹配左边或者右边
( )
(1). 在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰
(2). 取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到
2. 正则表达式中的一些高级规则
2.1 匹配次数中的贪婪与非贪婪
表达式
匹配结果
(d)(\w+)
"\w+" 将匹配第一个 "d" 之后的所有字符 "xxxdxxxd"
(d)(\w+)(d)
"\w+" 将匹配第一个 "d" 和最后一个 "d" 之间的所有字符 "xxxdxxx"。虽然 "\w+" 也能够匹配上最后一个"d",但是为了使整个表达式匹配成功,"\w+" 可以 "让出" 它本来能够匹配的最后一个 "d"
表达式
匹配结果
(d)(\w+?)
"\w+?" 将尽可能少的匹配第一个 "d" 之后的字符,结果是:"\w+?" 只匹配了一个 "x"
(d)(\w+?)(d)
为了让整个表达式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以让后边的 "d"匹配,从而使整个表达式匹配成功。因此,结果是:"\w+?" 匹配 "xxx"
2.2 反向引用 \1, \2...
2.3 预搜索,不匹配;反向预搜索,不匹配
3. 其他通用规则
3.1 表达式中,可以使用 "\xXX" 和 "\uXXXX" 表示一个字符("X" 表示一个十六进制数)
形式
字符范围
\xXX
编号在 0 ~ 255 范围的字符,比如:空格可以使用"\x20" 表示
\uXXXX
任何字符可以使用 "\u" 再加上其编号的4位十六进制数表示,比如:"\u4E2D"
3.2 在表达式 "\s","\d","\w","\b" 表示特殊意义的同时,对应的大写字母表示相反的意义
表达式
可匹配
\S
匹配所有非空白字符("\s" 可匹配各个空白字符)
\D
匹配所有的非数字字符
\W
匹配所有的字母、数字、下划线以外的字符
\B
匹配非单词边界,即左右两边都是 "\w" 范围或者左右两边都不是 "\w" 范围时的字符缝隙
3.3 在表达式中有特殊意义,需要添加 "\" 才能匹配该字符本身的字符汇总
字符
说明
^
匹配输入字符串的开始位置。要匹配 "^" 字符本身,请使用 "\^"
$
匹配输入字符串的结尾位置。要匹配 "$" 字符本身,请使用 "\$"
( )
标记一个子表达式的开始和结束位置。要匹配小括号,请使用 "\(" 和 "\)"
[ ]
用来自定义能够匹配 '多种字符' 的表达式。要匹配中括号,请使用 "\[" 和 "\]"
{ }
修饰匹配次数的符号。要匹配大括号,请使用 "\{" 和 "\}"
.
匹配除了换行符(\n)以外的任意一个字符。要匹配小数点本身,请使用 "\."
?
修饰匹配次数为 0 次或 1 次。要匹配 "?" 字符本身,请使用 "\?"
+
修饰匹配次数为至少 1 次。要匹配 "+" 字符本身,请使用 "\+"
*
修饰匹配次数为 0 次或任意次。要匹配 "*" 字符本身,请使用 "\*"
|
左右两边表达式之间 "或" 关系。匹配 "|" 本身,请使用 "\|"
3.4 括号 "( )" 内的子表达式,如果希望匹配结果不进行记录供以后使用,可以使用 "(?:xxxxx)" 格式
3.5 常用的表达式属性设置简介:Ignorecase,Singleline,Multiline,Global
表达式属性
说明
Ignorecase
默认情况下,表达式中的字母是要区分大小写的。配置为 Ignorecase 可使匹配时不区分大小写。有的表达式引擎,把 "大小写"概念延伸至 UNICODE 范围的大小写。
Singleline
默认情况下,小数点 "." 匹配除了换行符(\n)以外的字符。配置为 Singleline可使小数点可匹配包括换行符在内的所有字符。
Multiline
默认情况下,表达式 "^" 和 "$" 只匹配字符串的开始 ① 和结尾 ④ 位置。如:
①xxxxxxxxx②\n
③xxxxxxxxx④
配置为 Multiline 可以使 "^" 匹配 ① 外,还可以匹配换行符之后,下一行开始前 ③ 的位置,使 "$" 匹配 ④外,还可以匹配换行符之前,一行结束 ② 的位置。
Global
主要在将表达式用来替换时起作用,配置为 Global 表示替换所有的匹配。
4. 其他提示
4.1 如果想要了解高级的正则引擎还支持那些复杂的正则语法,可参见本站 DEELX正则引擎的说明文档。
4.2 如果要要求表达式所匹配的内容是整个字符串,而不是从字符串中找一部分,那么可以在表达式的首尾使用 "^" 和"$",比如:"^\d+$"要求整个字符串只有数字。
4.3 如果要求匹配的内容是一个完整的单词,而不会是单词的一部分,那么在表达式首尾使用 "\b",比如:使用"\b(if|while|else|void|int……)\b"来匹配程序中的关键字。
4.4 表达式不要匹配空字符串。否则会一直得到匹配成功,而结果什么都没有匹配到。比如:准备写一个匹配"123"、"123."、"123.5"、".5"这几种形式的表达式时,整数、小数点、小数数字都可以省略,但是不要将表达式写成:"\d*\.?\d*",因为如果什么都没有,这个表达式也可以匹配成功。更好的写法是:"\d+\.?\d*|\.\d+"。
4.5 能匹配空字符串的子匹配不要循环无限次。如果括号内的子表达式中的每一部分都可以匹配 0次,而这个括号整体又可以匹配无限次,那么情况可能比上一条所说的更严重,匹配过程中可能死循环。虽然现在有些正则表达式引擎已经通过办法避免了这种情况出现死循环了,比如 .NET的正则表达式,但是我们仍然应该尽量避免出现这种情况。如果我们在写表达式时遇到了死循环,也可以从这一点入手,查找一下是否是本条所说的原因。
4.6 合理选择贪婪模式与非贪婪模式,参见话题讨论。
4.7 或 "|" 的左右两边,对某个字符最好只有一边可以匹配,这样,不会因为 "|"两边的表达式因为交换位置而有所不同。
5. 进阶与实战
5.1 下载正则表达式文档 chm 版本
5.2 下载正则工具 Regex Match Tracer 2.0 试用版(正版很值得购买)
5.3 免费使用 Regex Match Tracer Web 版
5.4 更多深入话题及使用案例
- java 正则表达式总结
- Java正则表达式总结
- Java正则表达式总结
- JAVA正则表达式总结
- java正则表达式总结
- Java正则表达式总结
- Java正则表达式 总结
- JAVA正则表达式总结
- Java正则表达式总结
- java正则表达式总结
- java正则表达式总结
- JAVA 正则表达式总结
- Java正则表达式总结
- java正则表达式总结
- Java正则表达式总结
- Java正则表达式的总结
- Java正则表达式应用总结
- JAVA中正则表达式总结
- java.lang.OutOfMemoryError的两种解决办法
- 有你要用到的:邮箱输入框+自动补全
- 【wordpress】插件安装
- 使手机浏览器输入www网址自动跳转手机版页面
- 嵌套循环连接
- Java正则表达式 总结
- em12c OMS推送部署agent报错
- 一年成为Emacs高手(像神一样使用编辑器)
- C++ - "动态内存成员" 的 类设计 (值和指针)
- Android Input framework(一)
- http://qingwang.blog.51cto.com/505009/1143317
- 用jquery mobile实现手机上的文字或者图片可以左右滑动?
- 斯坦福自然语言组的NLP及计算语言学的资料汇总
- 成为IT经理的十项软技能