正则

来源:互联网 发布:医渡云 人工智能 编辑:程序博客网 时间:2024/05/19 06:47

Java正则表达式学习笔记


自从JDK1.4开始,JDK中新添加了java.util.regex包,用来处理正则表达式。在Java中的正则表达式的表达规则和Perl中基本是类似的,下面是JDK中对正则表达式语法描述。

正则表达式语法(摘自从Java doc中)
字符
x 字符 x
\\ 反斜线字符
\0n 带有八进制值 0 的字符 n (0 <= n <= 7)
\0nn 带有八进制值 0 的字符 nn (0 <= n <= 7)
\0mnn 带有八进制值 0 的字符 mnn(0 <= m <= 3、0 <= n <= 7)
\xhh 带有十六进制值 0x 的字符 hh
\uhhhh 带有十六进制值 0x 的字符 hhhh
\t 制表符 ('\u0009')
\n 新行(换行)符 ('\u000A')
\r 回车符 ('\u000D')
\f 换页符 ('\u000C')
\a 报警 (bell) 符 ('\u0007')
\e 转义符 ('\u001B')
\cx 对应于 x 的控制符
 
字符类
[abc] a、b 或 c(简单类)
[^abc] 任何字符,除了 a、b 或 c(否定)
[a-zA-Z] a 到 z 或 A 到 Z,两头的字母包括在内(范围)
[a-d[m-p]] a 到 d 或 m 到 p:[a-dm-p](并集)
[a-z&&[def]] d、e 或 f(交集)
[a-z&&[^bc]] a 到 z,除了 b 和 c:[ad-z](减去)
[a-z&&[^m-p]] a 到 z,而非 m 到 p:[a-lq-z](减去)
 
预定义字符类
. 任何字符(与行结束符可能匹配也可能不匹配)
\d 数字:[0-9]
\D 非数字: [^0-9]
\s 空白字符:[ \t\n\x0B\f\r]
\S 非空白字符:[^\s]
\w 单词字符:[a-zA-Z_0-9]
\W 非单词字符:[^\w]
 
POSIX 字符类(仅 US-ASCII)
\p{Lower} 小写字母字符:[a-z]
\p{Upper} 大写字母字符:[A-Z]
\p{ASCII} 所有 ASCII:[\x00-\x7F]
\p{Alpha} 字母字符:[\p{Lower}\p{Upper}]
\p{Digit} 十进制数字:[0-9]
\p{Alnum} 字母数字字符:[\p{Alpha}\p{Digit}]
\p{Punct} 标点符号:!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
\p{Graph} 可见字符:[\p{Alnum}\p{Punct}]
\p{Print} 可打印字符:[\p{Graph}\x20]
\p{Blank} 空格或制表符:[ \t]
\p{Cntrl} 控制字符:[\x00-\x1F\x7F]
\p{XDigit} 十六进制数字:[0-9a-fA-F]
\p{Space} 空白字符:[ \t\n\x0B\f\r]
 
java.lang.Character 类(简单的 java 字符类型)
\p{javaLowerCase} 等效于 java.lang.Character.isLowerCase()
\p{javaUpperCase} 等效于 java.lang.Character.isUpperCase()
\p{javaWhitespace} 等效于 java.lang.Character.isWhitespace()
\p{javaMirrored} 等效于 java.lang.Character.isMirrored()
 
Unicode 块和类别的类
\p{InGreek} Greek 块(简单块)中的字符
\p{Lu} 大写字母(简单类别)
\p{Sc} 货币符号
\P{InGreek} 所有字符,Greek 块中的除外(否定)
[\p{L}&&[^\p{Lu}]]     所有字母,大写字母除外(减去)
 
边界匹配器
^ 行的开头
$ 行的结尾
\b 单词边界
\B 非单词边界
\A 输入的开头
\G 上一个匹配的结尾
\Z 输入的结尾,仅用于最后的结束符(如果有的话)
\z 输入的结尾
 
Greedy 数量词
X? X,一次或一次也没有
X* X,零次或多次
X+ X,一次或多次
X{n} X,恰好 n 次
X{n,} X,至少 n 次
X{n,m} X,至少 n 次,但是不超过 m 次
 
Reluctant 数量词
X?? X,一次或一次也没有
X*? X,零次或多次
X+? X,一次或多次
X{n}? X,恰好 n 次
X{n,}? X,至少 n 次
X{n,m}? X,至少 n 次,但是不超过 m 次
 
Possessive 数量词
X?+ X,一次或一次也没有
X*+ X,零次或多次
X++ X,一次或多次
X{n}+ X,恰好 n 次
X{n,}+ X,至少 n 次
X{n,m}+ X,至少 n 次,但是不超过 m 次
 
Logical 运算符
XY X 后跟 Y
X|Y X 或 Y
(X) X,作为捕获组
 
Back 引用
\n 任何匹配的 nth 捕获组
 
引用
\ Nothing,但是引用以下字符
\Q Nothing,但是引用所有字符,直到 \E
\E Nothing,但是结束从 \Q 开始的引用
 
特殊构造(非捕获)
(?:X) X,作为非捕获组
(?idmsux-idmsux)     Nothing,但是将匹配标志由 on 转为 off
(?idmsux-idmsux:X)      X,作为带有给定标志 on - off 的非捕获组
(?=X) X,通过零宽度的正 lookahead
(?!X) X,通过零宽度的负 lookahead
(?<=X) X,通过零宽度的正 lookbehind
(?<!X) X,通过零宽度的负 lookbehind
(?>X) X,作为独立的非捕获组


语法规则很对,不过常用的不多,根据上面的语法规则,尝试写出电话号码的正则表达式。

电话号码,比如0531-88391537,刚开始感觉很简单,但是区号和电话号码长度是不固定的,区号一般是3位或者4位,而电话号码则是7位或者8位。从上面的语法中,看到有一条语法符合我们的这个需求:X{n,m} X,至少 n 次,但是不超过 m 次。而区号和电话号码都是数字,在正则表达式里面表述数字可以这样:[0-9],表示0到9。更简单一点,我们可以用\d来表示。所以这个的正则表达式如下:
\d{3,4}-\d{7,8}

下面明确一下写这个正则表达式的目的,是为了在程序中判断某个字符串是否符合这个正则表达式,从什么位置开始符合这个正则表达式,然后在什么位置结束。在java.util.regex里面提供了两个类,可以用来完成我们相应的功能。下面介绍一下这两个类:

Pattern
这个类相当于正则表达式在Java中的对象表示了,可以根据正则表达式构造这个类,然后传递一个字符串,得到结果,这个结果用对象来表示就是下面的Matcher类。
常用的方法如下:
compile(String regex)
根据正则表达式取得Pattern对象,相当于一个静态工厂方法。
pattern()           
取得传递的正则表达式。
matches(String regex, CharSequence input) 
判断一个字符串是不是符合传递的正则表达式,返回boolean。
matcher(CharSequence input)
根据input字符串取得Matcher对象。
split(CharSequence input)
根据正则表达式分割字符串。

Matcher
一个结果类。实现了MatchResult接口,完成了表示结果的这个责任,同时还提供了一些其他的方法辅助处理结果。
常用的方法如下:
start()  
匹配的开始位置,返回int
end()   
匹配的结束位置,返回int
group() 
匹配的字符串,返回string
find()  
扫描字符串,寻找下一个匹配的结果。返回boolean

上面的两个类的函数基本熟悉了以后,我们可以来完成我们的功能了,我们先写一个简单的,用来判断一个字符串是不是一个正确的电话号码。代码如下:

public static boolean isVaildPhoneNum(String phoneNum){
     String phoneNumPattern="}";
     boolean result=Pattern.matches(phoneNumPattern, phoneNum);
     return result;
}

如果想判断一个电话号码是否合法,直接传递电话号码即可boolean值。
电话号码是有点简单,可以继续写一个Email验证的方法,就根据163的邮箱名命名规则来写一个:
1.由字母a~z(不区分大小写)、数字0~9、点、减号或下划线组成
2.只能以数字或字母开头和结尾,例如:beijing.2008
3.用户名长度为4~18个字符
根据上面的语法规则,写出Email的正则表达式如下:
[a-zA-Z0-9][a-zA-Z0-9._-]{2,16}[a-zA-Z0-9]@[a-zA-Z0-9]+.[a-zA-Z0-9]+

验证代码如下:
public static boolean isVaildEmail(String email){
     String emailPattern="[a-zA-Z0-9][a-zA-Z0-9._-]{2,16}[a-zA-Z0-9]@[a-zA-Z0-9]+.[a-zA-Z0-9]+";
     boolean result=Pattern.matches(emailPattern, email);
     return result;
}

关于正则表达式,只要掌握好其语法,熟悉java.util.regex包,就可以算是基本掌握了,更多的功能参考一下JDK的帮助文档。

 

转载  http://hi.baidu.com/beanchx/item/65389efd93427eee1a111f4f

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 经典家庭伦txt丝母韵欲彩图 经典家庭伦txt丝母韵欲txt下载 经典家庭伦txt丝母韵欲d下载 经典家庭伦txt丝母韵欲视频 长篇都市情感小说 经典家庭伦全文 久九九久精品免费视频 91在线中文字幕香蕉人人视频 经典家庭伦txt岳丝母小丹韵欲阅读 碰超上线视频人人视频千人 91青青碰起上线视频人人 车里太挤姑妈坐我腿上做小说 经典家庭伦txt岳丝母小丹韵欲小说 我的丝母欲韵第六节 91在线中文久人人视频动漫 悉母全集动漫完整视频 类别中文动漫中的视频 腐母动漫全集视频时长 86 母汁视频动漫 久99久视频精品免费观看38 难以忍耐动漫视频中文 久九九久手机视频 乳娘家教动漫无删减在线播放 久99久精品视频只有精品 母恋人2017中文 久九九久视频精品6思思 巨母3动漫在线 久99久视频精品免费视频动漫 水柔姐大战儿子视频91 久九九久视频精品 99视频国内99视频在线观 横恋人母日语中字 玖玖视频热线视频大全 九九视频热线视频大全动漫 99ra视频这里只精品 九九久视频热线视频 九九久视频热线视频精品 九九视频本韩视频 9久9久女女视频精品mp4 久99久精品免费观看15 久99久只有视频精品18