java正则表达式

来源：互联网发布：网络调研公司排名编辑：程序博客网时间：2024/06/05 04:29

正则表达式

正则表达式包含特殊字符在java中使用需要加'\'进行转义

如 \d 匹配任意一个数字字符（相当于[0-9]） java使用需要写成\\d

^\\d[05] 匹配以数字开头第二位是0或者5 的字符串

^\\d[05] 与 ^[0-9][05] 等价；{n}表示指定字符出现次数； {n,}表示指定字符至少出现n次；{n,m} m大于n 表示至少出现n次最多出现m次

注意：当 ? 该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。

sutj1@epsoft.com.cn

要匹配上面的邮箱

前面的字符可能出现很多次，字符后面@前面可能有数字出现

^[a-zA-Z0-9]+ \\d@[a-zA-Z0-9]+\\.[com]+[cn]?
^[a-zA-Z0-9]*\\d
^[a-zA-Z0-9]{0,}\\d

81234568@qq.com

18912345673@163.com

要同时匹配以上两个邮箱要咋搞

\\d+@[a-zA-Z0-9]+\\.[com]+
Pattern p =Pattern.compile("\\d+@[a-zA-Z0-9]+\\.[com]+");
String Str="81234568@qq.comsunj1@epsoft.com.cn18912345673@163.com";
Matcher m=p.matcher(Str);
while(m.find()){
   list.add(m.group());
}

匹配结果：

[825451498@qq.com, 1@epsoft.com, 18912345673@163.com]

java正则校验格式：

Pattern p =Pattern.compile("regexStr");
Matcher match=p.matcher(Str);//str为待匹配的字符串
boolean flag=match. matches();// 返回布尔型 表示匹配结果，是否匹配成功

java正则脏话替换前提要有脏话库

Pattern p =Pattern.compile("[\u65e5\u5988\u903c]+");
String Str="啊哈ifi啊送花给掐日死发挥阿妈斯哦对逼宏观if";
Matcher m=p.matcher(Str);
StringBuffer sb = new StringBuffer();
Str= m.replaceAll("*");

java正则脏话替换词组替换

Pattern p =Pattern.compile("(([\u4f60][\u5988])|([\u5988][\u903c]))");
String Str="啊哈ifias打你妈扫打扫as打发嘎的啊送花给掐你日死发挥阿妈斯哦对妈逼宏观if";
Matcher m=p.matcher(Str);
StringBuffer sb = new StringBuffer();
Str= m.replaceAll("*");

正则表达式语法

元字符

描述

将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如，“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。

匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。

匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“\n”或“\r”之前的位置。

匹配前面的子表达式任意次。例如，zo*能匹配“z”，“zo”以及“zoo”。*等价于{0,}。

匹配前面的子表达式一次或多次(大于等于1次）。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等价于{1,}。

匹配前面的子表达式零次或一次。例如，“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。

{n}

n是一个非负整数。匹配确定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。

{n,}

n是一个非负整数。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。

{n,m}

m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。

当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。

.点

匹配除“\r\n”之外的任何单个字符。要匹配包括“\r\n”在内的任何字符，请使用像“[\s\S]”的模式。

(pattern)

匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“$”或“$”。

(?:pattern)

匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。

(?=pattern)

正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。

(?!pattern)

正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。

(?<=pattern)

反向肯定预查，与正向肯定预查类似，只是方向相反。例如，“(?<=95|98|NT|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。

(?<!pattern)

反向否定预查，与正向否定预查类似，只是方向相反。例如“(?<!95|98|NT|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。

x|y

匹配x或y。例如，“z|food”能匹配“z”或“food”或"zood"(此处请谨慎)。“(z|f)ood”则匹配“zood”或“food”。

[xyz]

字符集合。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”。

[^xyz]

负值字符集合。匹配未包含的任意字符。例如，“[^abc]”可以匹配“plain”中的“plin”。

[a-z]

字符范围。匹配指定范围内的任意字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。

注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围; 如果出字符组的开头,则只能表示连字符本身.

[^a-z]

负值字符范围。匹配任何不在指定范围内的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。

匹配一个单词边界，也就是指单词和空格间的位置（即正则表达式的“匹配”有两种概念，一种是匹配字符，一种是匹配位置，这里的\b就是匹配位置的）。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。

匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。

\cx

匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“c”字符。

匹配一个数字字符。等价于[0-9]。

匹配一个非数字字符。等价于[^0-9]。

匹配一个换页符。等价于\x0c和\cL。

匹配一个换行符。等价于\x0a和\cJ。

匹配一个回车符。等价于\x0d和\cM。

匹配任何不可见字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。

匹配任何可见字符。等价于[^ \f\n\r\t\v]。

匹配一个制表符。等价于\x09和\cI。

匹配一个垂直制表符。等价于\x0b和\cK。

匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”，这里的"单词"字符使用Unicode字符集。

匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。

\xn

匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。

\num

匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“(.)\1”匹配两个连续的相同字符。

标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。

\nm

标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。

\nml

如果n为八进制数字（0-7），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。

\un

匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。

\< \>匹配词（word）的开始（\<）和结束（\>）。例如正则表达式\<the\>能够匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意：这个元字符不是所有的软件都支持的。将 $ 和 $ 之间的表达式定义为“组”（group），并且将匹配这个表达式的字符保存到一个临时区域（一个正则表达式中最多可以保存9个），它们可以用 \1 到\9 的符号来引用。|将两个匹配条件进行逻辑“或”（Or）运算。例如正则表达式(him|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意：这个元字符不是所有的软件都支持的。+匹配1或多个正好在它之前的那个字符。例如正则表达式9+匹配9、99、999等。注意：这个元字符不是所有的软件都支持的。?匹配0或1个正好在它之前的那个字符。注意：这个元字符不是所有的软件都支持的。{i} {i,j}

匹配指定数目的字符，这些字符是在它之前的表达式定义的。例如正则表达式A[0-9]{3} 能够匹配字符"A"后面跟着正好3个数字字符的串，例如A123、A348等，但是不匹配A1234。而正则表达式[0-9]{4,6} 匹配连续的任意4个、5个或者6个数字

Matcher 类的方法

索引方法

索引方法提供了有用的索引值，精确表明输入字符串中在哪能找到匹配：

序号方法及说明1public int start()
返回以前匹配的初始索引。2public int start(int group)
返回在以前的匹配操作期间，由给定组所捕获的子序列的初始索引3public int end()
返回最后匹配字符之后的偏移量。4public int end(int group)
返回在以前的匹配操作期间，由给定组所捕获子序列的最后字符之后的偏移量。

研究方法

研究方法用来检查输入字符串并返回一个布尔值，表示是否找到该模式：

序号方法及说明1public boolean lookingAt()
尝试将从区域开头开始的输入序列与该模式匹配。2public boolean find()
尝试查找与该模式匹配的输入序列的下一个子序列。3public boolean find(int start）
重置此匹配器，然后尝试查找匹配该模式、从指定索引开始的输入序列的下一个子序列。4public boolean matches()
尝试将整个区域与模式匹配。

替换方法

替换方法是替换输入字符串里文本的方法：

序号方法及说明1public Matcher appendReplacement(StringBuffer sb, String replacement)
实现非终端添加和替换步骤。2public StringBuffer appendTail(StringBuffer sb)
实现终端添加和替换步骤。3public String replaceAll(String replacement)
替换模式与给定替换字符串相匹配的输入序列的每个子序列。4public String replaceFirst(String replacement)
替换模式与给定替换字符串匹配的输入序列的第一个子序列。5public static String quoteReplacement(String s)
返回指定字符串的字面替换字符串。这个方法返回一个字符串，就像传递给Matcher类的appendReplacement 方法一个字面字符串一样工作。

start 和 end 方法

下面是一个对单词 "cat" 出现在输入字符串中出现次数进行计数的例子：

RegexMatches.java 文件代码：

import java.util.regex.Matcher;importjava.util.regex.Pattern;publicclassRegexMatches{privatestaticfinalStringREGEX="\\bcat\\b";privatestaticfinalStringINPUT="cat cat cat cattie cat";publicstaticvoidmain(Stringargs[]){Patternp=Pattern.compile(REGEX);Matcherm=p.matcher(INPUT);//获取 matcher 对象intcount=0;while(m.find()){count++;System.out.println("Match number "+count);System.out.println("start():"+m.start());System.out.println("end():"+m.end());}}}

以上实例编译运行结果如下：

Match number 1start(): 0end(): 3Match number 2start(): 4end(): 7Match number 3start(): 8end(): 11Match number 4start(): 19end(): 22

可以看到这个例子是使用单词边界，以确保字母 "c" "a" "t" 并非仅是一个较长的词的子串。它也提供了一些关于输入字符串中匹配发生位置的有用信息。

Start 方法返回在以前的匹配操作期间，由给定组所捕获的子序列的初始索引，end 方法最后一个匹配字符的索引加 1。

matches 和 lookingAt 方法

matches 和 lookingAt 方法都用来尝试匹配一个输入序列模式。它们的不同是 matcher 要求整个序列都匹配，而lookingAt 不要求。

lookingAt 方法虽然不需要整句都匹配，但是需要从第一个字符开始匹配。

这两个方法经常在输入字符串的开始使用。

我们通过下面这个例子，来解释这个功能：

RegexMatches.java 文件代码：

import java.util.regex.Matcher;importjava.util.regex.Pattern;publicclassRegexMatches{privatestaticfinalStringREGEX="foo";privatestaticfinalStringINPUT="fooooooooooooooooo";privatestaticfinalStringINPUT2="ooooofoooooooooooo";privatestaticPatternpattern;privatestaticMatchermatcher;privatestaticMatchermatcher2;publicstaticvoidmain(Stringargs[]){pattern=Pattern.compile(REGEX);matcher=pattern.matcher(INPUT);matcher2=pattern.matcher(INPUT2);System.out.println("Current REGEX is: "+REGEX);System.out.println("Current INPUT is: "+INPUT);System.out.println("Current INPUT2 is: "+INPUT2);System.out.println("lookingAt():"+matcher.lookingAt());System.out.println("matches():"+matcher.matches());System.out.println("lookingAt():"+matcher2.lookingAt());}}

以上实例编译运行结果如下：

Current REGEX is: fooCurrent INPUT is: foooooooooooooooooCurrent INPUT2 is: ooooofoooooooooooolookingAt(): truematches(): falselookingAt(): false

replaceFirst 和 replaceAll 方法

replaceFirst 和 replaceAll 方法用来替换匹配正则表达式的文本。不同的是，replaceFirst 替换首次匹配，replaceAll 替换所有匹配。

下面的例子来解释这个功能：

RegexMatches.java 文件代码：

import java.util.regex.Matcher;importjava.util.regex.Pattern;publicclassRegexMatches{privatestaticStringREGEX="dog";privatestaticStringINPUT="The dog says meow."+"All dogs say meow.";privatestaticStringREPLACE="cat";publicstaticvoidmain(String[]args){Patternp=Pattern.compile(REGEX);//get a matcher objectMatcherm=p.matcher(INPUT);INPUT=m.replaceAll(REPLACE);System.out.println(INPUT);}}

以上实例编译运行结果如下：

The cat says meow. All cats say meow.

appendReplacement 和 appendTail 方法

Matcher 类也提供了appendReplacement 和 appendTail 方法用于文本替换：

看下面的例子来解释这个功能：

RegexMatches.java 文件代码：

import java.util.regex.Matcher;importjava.util.regex.Pattern;publicclassRegexMatches{privatestaticStringREGEX="a*b";privatestaticStringINPUT="aabfooaabfooabfoob";privatestaticStringREPLACE="-";publicstaticvoidmain(String[]args){Patternp=Pattern.compile(REGEX);//获取 matcher 对象Matcherm=p.matcher(INPUT);StringBuffersb=newStringBuffer();while(m.find()){m.appendReplacement(sb,REPLACE);}m.appendTail(sb);System.out.println(sb.toString());}}

以上实例编译运行结果如下：

-foo-foo-foo-

PatternSyntaxException 类的方法

PatternSyntaxException 是一个非强制异常类，它指示一个正则表达式模式中的语法错误。

PatternSyntaxException 类提供了下面的方法来帮助我们查看发生了什么错误。

序号方法及说明1public String getDescription()
获取错误的描述。2public int getIndex()
获取错误的索引。3public String getPattern()
获取错误的正则表达式模式。4public String getMessage()
返回多行字符串，包含语法错误及其索引的描述、错误的正则表达式模式和模式中错误索引的可视化指示。

阅读全文

1 0