【java基础】正则表达式的使用

来源：互联网发布：淘宝小额贷款编辑：程序博客网时间：2024/04/27 21:59

正则表达式的使用（部分文字转载自其它网友）

一、正则表达式的基础知识

正则表达式常用于字符的匹配或查找。假设你要搜索一个包含字符“cat”的字符串，搜索用的正则表达式就是“cat”。如果搜索对大小写不敏感，单词“ctalog”、“Catherine”、“sophisticated”都可以匹配。

1.句点符号 .

设你在玩英文拼字游戏，想要找出三个字母的单词，而且这些单词必须以“t”字母开头，以“n”字母结束。另外，假设有一本英文字典，你可以用正则表达式搜索它的全部内容。要构造出这个正则表达式，你可以使用一个通配符——句点符号“。”。这样，完整的表达式就是“t.n”，它匹配“tan”、“ten”、“tin”和“ton”，还匹配“t#n”、“tpn”甚至“t n”，还有其他许多无意义的组合。这是因为句点符号匹配所有字符，包括空格、Tab字符甚至换行符

2.方括号符号 []

为了解决句点符号匹配范围过于广泛这一问题，你可以在方括号（“[]”）里面指定看来有意义的字符。此时，只有方括号里面指定的字符才参与匹配。也就是说，正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配，因为在方括号之内你只能匹配单个字符

3.“或”符号 |

如果除了上面匹配的所有单词之外，你还想要匹配“toon”，那么，你可以使用“|”操作符。“|”操作符的基本意义就是“或”运算。要匹配“toon”，使用“t（a|e|i|o|oo）n”正则表达式。这里不能使用方扩号，因为方括号只允许匹配单个字符；这里必须使用圆括号“（）”

4.表示匹配次数的符号

表一显示了表示匹配次数的符号，这些符号用来确定紧靠该符号左边的符号出现的次数

假设我们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999.用来匹配它的正则表达式如图一所示。在正则表达式中，连字符（“-”）有着特殊的意义，它表示一个范围，比如从0到9.因此，匹配社会安全号码中的连字符号时，它的前面要加上一个转义字符“\”。

图一：匹配所有123-12-1234形式的社会安全号码

假设进行搜索的时候，你希望连字符号可以出现，也可以不出现——即，999-99-9999和999999999都属于正确的格式。这时，你可以在连字符号后面加上“？”数量限定符号，如图二所示：

图二：匹配所有123-12-1234和123121234形式的社会安全号码

下面我们再来看另外一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”，再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。

图三：匹配典型的美国汽车牌照号码，如8836KV

5 “否”符号 ^

“^”符号称为“否”符号。如果用在方括号内，“^”表示不想要匹配的字符。例如，图四的正则表达式匹配所有单词，但以“X”字母开头的单词除外。

图四：匹配所有单词，但“X”开头的除外

1.6 圆括号和空白符号

假设要从格式为“June 26， 1951”的生日日期中提取出月份部分，用来匹配该日期的正则表达式可以如图五所示：

图五：匹配所有Moth DD，YYYY格式的日期

新出现的“\s”符号是空白符号，匹配所有的空白字符，包括Tab字符。如果字符串正确匹配，接下来如何提取出月份部分呢？只需在月份周围加上一个圆括号创建一个组，然后用ORO API（本文后面详细讨论）提取出它的值。修改后的正则表达式如图六所示：

图六：匹配所有Month DD，YYYY格式的日期，定义月份值为第一个组

6. 其它符号

为简便起见，你可以使用一些为常见正则表达式创建的快捷符号。如表二所示：

表二：常用符号

例如，在前面社会安全号码的例子中，所有出现“[0-9]”的地方我们都可以使用“\d”。修改后的正则表达式如图七所示：

图七：匹配所有123-12-1234格式的社会安全号码

二、Pattern类

1.public final class java.util.regex.Pattern是正则表达式编译后的表达法。
下面的语句将创建一个Pattern对象并赋值给句柄pat：Pattern pat = Pattern.compile(regEx);
有趣的是，Pattern类是final类，而且它的构造器是private。也许有人告诉你一些设计模式的东西，或者你自己查有关资料。这里的结论是：Pattern类不能被继承，我们不能通过new创建Pattern类的对象。
因此在Pattern类中，提供了2个重载的静态方法，其返回值是Pattern对象（的引用）。如：

public static Pattern compile(String regex) {          return new Pattern(regex, 0);  }

当然，我们可以声明Pattern类的句柄，如Pattern pat = null；

2.pat.matcher(str)表示以用Pattern去生成一个字符串str的匹配器，它的返回值是一个Matcher类的引用。
我们可以简单的使用如下方法：boolean rs = Pattern.compile(regEx).matcher(str).find();

三、通过Pattern类使用正则表达式

1.Java中在某个字符串中查询某个字符或者某个子字串

String s = "@Shang Hai Hong Qiao Fei Ji Chang"; 　　  String regEx = "a|F"; //表示a或F  Pattern pat = Pattern.compile(regEx);  Matcher mat = pat.matcher(s);  boolean rs = mat.find();

如果s中有regEx，那么rs为true，否则为flase。
如果想在查找时忽略大小写，则可以写成Pattern pat=Pattern.compile(regEx,Pattern.CASE_INSENSITIVE);

2.在某个文件中获取一段字符串

String regEx = ".+\(.+)$";  String s = "c:\test.txt";  Pattern pat = Pattern.compile(regEx);  Matcher mat = pat.matcher(s);  boolean rs = mat.find();  for(int i=1;i<=mat.groupCount();i++){  　　System.out.println(mat.group(i));  }

以上的执行结果为test.txt，提取的字符串储存在mat.group(i)中，其中i最大值为mat.groupCount();

3.对字符串的分割

String regEx=":";  Pattern pat = Pattern.compile(regEx);  String[] rs = pat.split("aa:bb:cc");

执行后，r就是{"aa","bb","cc"}
如果用正则表达式分割就如上所示，一般我们都会使用下面更简单的方法：

String s = "aa:bb:cc";  String[] rs=s.split(":");

4.字符串的替换/删除

String regEx="@+"; //表示一个或多个@  Pattern pat=Pattern.compile(regEx);  Matcher mat=pat.matcher("@@aa@b cc@@");  String s=mat.replaceAll("#");

结果为"##aa#b cc##"

如果要把字符串中的@都给删除，只用要空字符串替换就可以了：

String s=mat.replaceAll("")

结果为"aab cc"

四、通过java.lang.String的相关方法使用正则表达式

1.使用replaceAll方法替换字符串中符合正则表达式的字符

"@@aa@b cc@@".replaceAll("@+", "#")

结果：#aa#b cc#

2.使用matches方法判断给定字符串是否符合给定的正则表达式

/** 验证一个字符串是否匹配指定的正则表达式  */String email = "abb@163.com";String regex1 = "\\w+([-+.]\\w+)*@\\w+([-.]w+)*\\.\\w+([-.]\\w+)*";boolean rs2 = email.matches(regex1);

五、常用的正则表达式

常用的正则表达式：

匹配特定数字：

^[1-9]d*$　　 //匹配正整数

^-[1-9]d*$ 　 //匹配负整数

^-?[1-9]d*$　　 //匹配整数

^[1-9]d*|0$　 //匹配非负整数（正整数 + 0）

^-[1-9]d*|0$　　 //匹配非正整数（负整数 + 0）

^[1-9]d*.d*|0.d*[1-9]d*$　　 //匹配正浮点数

^-([1-9]d*.d*|0.d*[1-9]d*)$　 //匹配负浮点数

^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$　 //匹配浮点数

^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）

^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$　　//匹配非正浮点数（负浮点数 + 0）

评注：处理大量数据时有用，具体应用时注意修正

匹配特定字符串：

^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串

^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串

^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串

^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串

^w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串

在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下:

只能输入数字：“^[0-9]*$”

只能输入n位的数字：“^d{n}$”

只能输入至少n位数字：“^d{n,}$”

只能输入m-n位的数字：“^d{m,n}$”

只能输入零和非零开头的数字：“^(0|[1-9][0-9]*)$”

只能输入有两位小数的正实数：“^[0-9]+(.[0-9]{2})?$”

只能输入有1-3位小数的正实数：“^[0-9]+(.[0-9]{1,3})?$”

只能输入非零的正整数：“^+?[1-9][0-9]*$”

只能输入非零的负整数：“^-[1-9][0-9]*$”

只能输入长度为3的字符：“^.{3}$”

只能输入由26个英文字母组成的字符串：“^[A-Za-z]+$”

只能输入由26个大写英文字母组成的字符串：“^[A-Z]+$”

只能输入由26个小写英文字母组成的字符串：“^[a-z]+$”

只能输入由数字和26个英文字母组成的字符串：“^[A-Za-z0-9]+$”

只能输入由数字、26个英文字母或者下划线组成的字符串：“^w+$”

验证用户密码:“^[a-zA-Z]w{5,17}$”正确格式为：以字母开头，长度在6-18之间，

只能包含字符、数字和下划线。

验证是否含有^%&’,;=?$”等字符：“[^%&’,;=?$x22]+”

只能输入汉字：“^[u4e00-u9fa5],{0,}$”

验证Email地址：“^w+[-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*$”

验证InternetURL：“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?$”

验证电话号码：“^((d{3,4})|d{3,4}-)?d{7,8}$”

正确格式为：“XXXX-XXXXXXX”，“XXXX-XXXXXXXX”，“XXX-XXXXXXX”，

“XXX-XXXXXXXX”，“XXXXXXX”，“XXXXXXXX”。

验证身份证号（15位或18位数字）：“^d{15}|d{}18$”

验证一年的12个月：“^(0?[1-9]|1[0-2])$”正确格式为：“01”-“09”和“1”“12”

验证一个月的31天：“^((0?[1-9])|((1|2)[0-9])|30|31)$”

正确格式为：“01”“09”和“1”“31”。

匹配中文字符的正则表达式： [u4e00-u9fa5]

匹配双字节字符(包括汉字在内)：[^x00-xff]

匹配空行的正则表达式：n[s| ]*r

匹配HTML标记的正则表达式：/< (.*)>.*|< (.*) />/

匹配首尾空格的正则表达式：(^s*)|(s*$)

匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*

匹配网址URL的正则表达式：http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?

【java基础】 正则表达式的使用

【java基础】正则表达式的使用