正则表达式学习总结

来源:互联网 发布:淘宝开店类目 知乎 编辑:程序博客网 时间:2024/05/16 09:53

[]:要匹配的内容的范围

         直接要匹配的内容写入[]中间即可

         eg:在所有的信息中匹配1,2,3,4出现的位置,写成[1234]

- :表示连续,(是减号,并非下划线)

eg:你要匹配所有的英文字母,用上面的写法太麻烦了,使用-将会很简单做到,就可以写成[A-Za-z]就行了,注意x  - y其中x  <  y才可以,负责将会报错。

^ :排除,不包含

eg:有时候我们会匹配一些相反的内容,比如不是数字的,将会包含大小写字母、特殊符号。书写麻烦,使用^将会很简单做到。[^0-9]就可以了。

eg:[^0-9a-d]:文本时0123456789abcdZ如果你觉得结果为“abcdZ“那你就错了,正确的结果是”Z“,这个正则表达式不是表示的要匹配不包含0 – 9 和包含a – d 的内容,而是匹配的不包含0 – 9 和 a – d 的内容

eg:^现在说的只是在[]中的表示方式。

一些常见的简写

\d = [0-9] =[0123456789]

\D = ^\d

\w = [_a-z0-9A-Z] 

\W =  ^\w

\s = [  \r\t\n\b\f] eg: 第一个内容为空。\s被叫做“空白字符“。

\S = ^\s

{}{n}{m,n}{m,}*{0,}?{0,1} +{1,}

 

 

{}匹配内容出现的次数

{n}:前面的内容必须出现n次

eg:文本“0123456789“,正则表达式 [\d]{5]结果为01234和56789,

eg:正则表达式 [a]{5}只能匹配“aaaaa“

{m,n}:前面的必须出现在m次和n次之间,m < n 

eg:文本“0123456789“,正则表达式[\d]{2,4},结果为0123、4567、89(此项可能存在差异)

eg:文本“a1a22a333a4444a55“,正则表达式[\d]{2,4},结果为12、123、1234

eg:正则表达式[a]{2,4}可以匹配 aa、aaa、aaaa

{m,}:匹配之前至少出现m次的,上线没有规定。

eg:正则表达式[a]{2, }可以匹配 aa、aaa、aaaa、aaaaa……aaa

一些常用的表示次数的简写

*  =  {0,}

?  =  {0,1}

+  =  {1,}

()分组

分组主要用于,再一次匹配中多个数据必须同时出现,但是每个对用不同使用方法,提取URL链接的时候,链接的地址和显示的文字要出现同时出现,但是我们一般需要连接地址和显示文字分开用的。

分组的书写的格式:(?<name>regex),两个小括号见表示一个分组,<>两个尖括号中间表示的是分组的名字,regex表示正则表达式

eg:匹配的文本“<ahref="http://blog.csdn.net/rentiansheng">我的博客</a> “,正则表达式为”<a href="(?<URL>http://[\S]*)">(?<title>[\w]*)</a> “结果为 结果共一个,这一个结果中有两组,值为”http://blog.csdn.net/rentianshenghe我的博客“。(c#中测试的)

 

边界相关的

\b  = [^a-z0-9A-Z_],还有一个没有描述出来就是每一行的开始,即是什么也没有的。可以用来表示单词的边界。

         下面我们举一个例子:

         X:表示没法匹配。√:表示可以匹配

字符串

\brow\b

row\b

\brow

tomorrow

X

X

brown

X

X

X

rowdy

X

X

X

row

       eg:匹配所有的单词 \b[\w]+\w

        

^:表示行的开始。与我们看到屏幕上的一行行是有区别的。因为屏幕上可能会因为一行装不下。所以自动换行造成的。对^来说前面没有见任何东西或者\n(只有window中式\r\n)后面的第一个单词才是。注意,回车并会产生的是\f因而不是换行。

$:表示是行的结束。即是最后一个单词。也有可能是\n(只有window中式\r\n)前面的一个单词。

 

|:多选

         书写格式(regex|regex|regex|……|regex)

        eg:身份证可以分为18位和15位,

                   匹配18位身份证的正则表达式“”

                   匹配15位身份证的正则表达式“[1-9]\d{14}”

                   所以同时匹配18又匹配15的正则表达式可以写作”([1-9]\d{16}[0-9x]| [1-9]\d{14})”但是一般写作“[1-9]\d{14}(\d{2}[0-9x])?”

         eg: IP地址匹配。这个比较麻烦。我们只说其中的一段地址可能是1、2、3。

        

位数

取值范围

正则表达式

3位

100-199            

1\d{2}

200-249

2[0-4][0-9]

250-255

25[0-4]

2位

10-99

[1-9]\d

1

0-9

\d

         随意IP地址其中 一段地址的匹配位(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-4])

         匹配IP地址位(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-4]))\.{4}。注意其中的\.表示匹配“.”。 “\”用来匹配转意字符的。

         eg:文本为“doube times or 2 time”,正则表达式为“doube|2 times”,你可能认为结果是“doubletimes”和 “2times”,错了,结果是“double”和“2 time”。想让结果产生的是“double times”和 “2 times”的正则表达式是“doube times|2times”和 “(doube|2)times”,后面的会产生分组。

注意:|将本组中前面所有的表达式和和后面的表达进行的或运算。

0 0
原创粉丝点击