深入java 定义正则表达式

来源:互联网 发布:柏原崇 知乎 编辑:程序博客网 时间:2024/06/06 23:17

这篇文章总结java1.4之后加入的正则表达式,总结他的使用。更多的源代码请访问我的github:https://github.com/yangsheng20080808/deepIntoJava

本文分为3大部分

  • 正则表达式的通用定义规则
  • 正则表达式定义的例子
  • 附加常用的匹配例子

正则表达式的通用定义规则

使用正则表达式我们只要关心一个类即可:java.util.regex.Pattern
摘抄自官方API文档。
指定为字符串的正则表达式必须首先被编译为此类的实例。然后,可将得到的模式用于创建 Matcher 对象,依照正则表达式,该对象可以与任意字符序列匹配。执行匹配所涉及的所有状态都驻留在匹配器中,所以多个匹配器可以共享同一模式。

因此,典型的调用顺序是

Pattern p = Pattern.compile(“a*b”);
Matcher m = p.matcher(“aaaaab”);
boolean b = m.matches();

在仅使用一次正则表达式时,可以方便地通过此类定义 matches 方法。此方法编译表达式并在单个调用中将输入序列与其匹配。
语句 boolean b = Pattern.matches(“a*b”, “aaaaab”);
等效于上面的三个语句,尽管对于重复的匹配而言它效率不高,因为它不允许重用已编译的模式。
此类的实例是不可变的,可供多个并发线程安全使用。Matcher 类的实例用于此目的则不安全。
匹配器和分组上一篇文章已经详细的说明了,这篇文章就不继续介绍,直接介绍规则和例子。

正则表达式主要用于模式匹配,查看了String类的源代码,其实String类里面很多类似字符串分割和匹配的函数内部都是直接调用了Pattern类的方法。类似split方法等:
这里写图片描述
这里写图片描述
这里写图片描述

正则表达式的一些语法规则直接去看api文档就好。

正则表达式定义的例子

这个部分介绍几个正则表达式的例子,一篇文章总结了:同一个正则表达式匹配的内容可能是很不一样的,但是他们都满足了某一项规则,这个规则就是我们所说的正则表达式所表示的内容。

下面举一个例子说明:
这里写图片描述

其中:[A-Z][a-z]([A-Z][a-z])+ 具体的意思是:大写字母-小写字母(0个或多个){大写字母-小写字母(0个或多个)}(至少一次)
意思就是:至少两次:大写-(小写*)
还有一点关键点是:正则表达式在解析的时候从左往右,* +?从左往右只与自己最近的一块作用。

附加常用的匹配例子

附 : 常用的正则表达式:
匹配特定数字:
^[1-9]d*//[19]d   //匹配负整数
^-?[1-9]d*//[19]d|0  //匹配非负整数(正整数 + 0)
^-[1-9]d*|0//+0[19]d.d|0.d[19]d   //匹配正浮点数
^-([1-9]d*.d*|0.d*[1-9]d*)//?([19]d.d|0.d[19]d|0?.0+|0)  //匹配浮点数
^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0//+0(([19]d.d|0.d[19]d))|0?.0+|0  //匹配非正浮点数(负浮点数 + 0)
评注:处理大量数据时有用,具体应用时注意修正

匹配特定字符串:
^[A-Za-z]+//26[AZ]+  //匹配由26个英文字母的大写组成的字符串
^[a-z]+//26[AZaz09]+  //匹配由数字和26个英文字母组成的字符串
^w+$  //匹配由数字、26个英文字母或者下划线组成的字符串

在使用RegularExpressionValidator验证控件时的验证功能及其验证表达式介绍如下:

只能输入数字:“^[0-9]*ndn
只能输入至少n位数字:“^d{n,}mndm,n
只能输入零和非零开头的数字:“^(0|[1-9][0-9]*)[09]+(.[09]2)?
只能输入有1-3位小数的正实数:“^[0-9]+(.[0-9]{1,3})?+?[19][09]
只能输入非零的负整数:“^-[1-9][0-9]*3.3
只能输入由26个英文字母组成的字符串:“^[A-Za-z]+26[AZ]+
只能输入由26个小写英文字母组成的字符串:“^[a-z]+26[AZaz09]+
只能输入由数字、26个英文字母或者下划线组成的字符串:“^w+:[azAZ]w5,17”正确格式为:以字母开头,长度在6-18之间,

只能包含字符、数字和下划线。
验证是否含有^%&’,;=?”等字符:“[^%&’,;=?x22]+”
只能输入汉字:“^[u4e00-u9fa5],{0,}$”
验证Email地址:“^w+[-+.]w+)@w+([-.]w+).w+([-.]w+)*$”
验证InternetURL:“^http://([w-]+.)+[w-]+(/[w-./?%&=]*)?((d3,4)|d3,4)?d7,8

正确格式为:“XXXX-XXXXXXX”,“XXXX-XXXXXXXX”,“XXX-XXXXXXX”,

“XXX-XXXXXXXX”,“XXXXXXX”,“XXXXXXXX”。
验证身份证号(15位或18位数字):“^d{15}|d{}1812(0?[19]|1[02])”正确格式为:“01”-“09”和“1”“12”
验证一个月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$”

正确格式为:“01”“09”和“1”“31”。

匹配中文字符的正则表达式: [u4e00-u9fa5]
匹配双字节字符(包括汉字在内):[^x00-xff]
匹配空行的正则表达式:n[s| ]*r
匹配HTML标记的正则表达式:/< (.)>.|< (.*) />/
匹配首尾空格的正则表达式:(^s*)|(s*$)
匹配Email地址的正则表达式:w+([-+.]w+)@w+([-.]w+).w+([-.]w+)*
匹配网址URL的正则表达式:http://([w-]+.)+[w-]+(/[w- ./?%&=]*)?

使用正则表达式查找不包含连续字符串abc的单词,最终结果:\b(a(?!bc)|^a)((?

原创粉丝点击