正则表达式

来源:互联网 发布:mac系统语言切换 编辑:程序博客网 时间:2024/05/17 03:55

@Author:云都小生


概述



正则表达式是啥嘞?其实它也算一个微小且高度专业化的编程语言。它可以用来匹配/描述哪些你希望匹配的字符串,我们先来看几个例子。

场景1:在网页设计中,我们现在需要对用户输入进行验证,只要用户输入的不是8个数字就不能通过。这个我们怎么去检测?

再复杂点,我们想匹配邮件的格式,xxx@.com类似这种,但是不要.xxxx@.com这种··· 这个时候怎么办?

场景2:某个程序员想一个爬虫来挖掘一个网站中所有的IP地址,那我们应该怎么去匹配这些字符串?

正则表达式其实就是一套标准,可以通过这套标准,来描述、匹配某个字符串。

许多的编程语言都支持正则表达式,基本上都有正则表达式的身影。如果学会正则表达式,平时开发会更高效。


从元字符入手



首先我们需要认识一些元字符。

特别字符 描述 $ 匹配输入字符串的结尾位置。若要匹配 $ 字符本身,请使用 \$。 ( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \) * 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \* + 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+ . 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. [ 标记一个中括号表达式的开始。要匹配 [,请使用 \[ ? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \? \ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\\’ 匹配 “\”,而 ‘\(’ 则匹配 “(“。 ^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。 { 标记限定符表达式的开始。要匹配 {,请使用 \{。 | 指明两项之间的一个选择。要匹配 |,请使用 \|。

我们一个个来看,首先看看*、+、?和{},这四个用于限定匹配的次数。

ab*c,这个就能匹配它前面的子表达式0次或多次,例如说ac、abc、abbbc都可以;
ab+c,这个只能匹配前面子表达式一次或多次,ac就这个时候就不行了,必须是abc、abbc····
ab?c,这个匹配的是子表达式零次或一次,ac可以,abc可以,abbc、abbbc就不可以了。
{n},表示匹配前面的子表达式n次;
{n,m},表示匹配前面的子表达式n~m次,最少n次,最多n次;
{n,},表示匹配前面子表达式最少n次。
^</strong>
[]方括号可以包含一系列字符,能匹配其中任意一个字符。用[^]包含一系列字符,能够匹配除了其中字符外的任意一个字符。[A-Z]匹配的是大写A~大写Z。如果[^a-z]匹配除了a~z外的其他任意字符。[abc5@]可以匹配”a”、”b”、”c”、”5”、”@”。
|当出现这个时候,它的意思是,要么匹配左边的,要么匹配右边的。[a-z]|[A-Z]表示匹配a~z或者A-Z。


普通字符与转义字符


字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是”普通字符”。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。

\r、\n代表回车和换行符,[\r\n]表示只匹配回车符和换行符;

\t代表制表符;

有一些在正则表达式中有特殊用途的,需要加上斜杠才能匹配自身,\^,匹配 ^ 符号本身;$匹配 $ 符号本身;.匹配小数点(.)本身。

除了这些,正则中还有一些其他的转义字符,\d代表的是任意一个数字,0~9;\w任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个;\s包括空格、制表符、换页符等空白字符的其中任意一个。

\b 匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符;

.小数点可以匹配除了换行符(\n)以外的任意一个字符。


贪婪与非贪婪模式



贪婪模式和非贪婪模式的区别在于:贪婪模式总是趋向于匹配更长的长度。

String str="abcaxc";Patter p="ab*c";

如果是贪婪模式,匹配的就是”abcaxc”,abxxxxc;
如果是非贪婪模式,匹配的就是”abc”,abc。

正则表达式默认是贪婪模式,如果在量词后面直接加上一个问号,就是非贪婪模式。

贪婪模式 \".+\"非贪婪模式 \".+?\"

2017/11/15 22:32:05 @Author:云都小生