正则表达式学习总结

来源：互联网发布：淘宝开店类目知乎编辑：程序博客网时间：2024/05/16 09:53

[]：要匹配的内容的范围

直接要匹配的内容写入[]中间即可

eg:在所有的信息中匹配1，2，3，4出现的位置，写成[1234]

- ：表示连续，（是减号，并非下划线）

eg：你要匹配所有的英文字母，用上面的写法太麻烦了，使用-将会很简单做到，就可以写成[A-Za-z]就行了,注意x - y其中x < y才可以，负责将会报错。

^ ：排除，不包含

eg：有时候我们会匹配一些相反的内容，比如不是数字的，将会包含大小写字母、特殊符号。书写麻烦，使用^将会很简单做到。[^0-9]就可以了。

eg：[^0-9a-d]：文本时0123456789abcdZ如果你觉得结果为“abcdZ“那你就错了，正确的结果是”Z“，这个正则表达式不是表示的要匹配不包含0 – 9 和包含a – d 的内容，而是匹配的不包含0 – 9 和 a – d 的内容

eg：^现在说的只是在[]中的表示方式。

一些常见的简写

\d = [0-9] =[0123456789]

\D = ^\d

\w = [_a-z0-9A-Z]

\W = ^\w

\s = [ \r\t\n\b\f] eg: 第一个内容为空。\s被叫做“空白字符“。

\S = ^\s

{}{n}{m,n}{m,}*{0,}?{0,1} +{1,}

{}匹配内容出现的次数

{n}：前面的内容必须出现n次

eg：文本“0123456789“，正则表达式 [\d]{5]结果为01234和56789，

eg：正则表达式 [a]{5}只能匹配“aaaaa“

{m,n}：前面的必须出现在m次和n次之间，m < n

eg：文本“0123456789“，正则表达式[\d]{2,4}，结果为0123、4567、89（此项可能存在差异）

eg：文本“a1a22a333a4444a55“，正则表达式[\d]{2,4}，结果为12、123、1234

eg：正则表达式[a]{2,4}可以匹配 aa、aaa、aaaa

{m,}：匹配之前至少出现m次的，上线没有规定。

eg：正则表达式[a]{2, }可以匹配 aa、aaa、aaaa、aaaaa……aaa

一些常用的表示次数的简写

* = {0,}

? = {0,1}

+ = {1,}

()分组

分组主要用于，再一次匹配中多个数据必须同时出现，但是每个对用不同使用方法，提取URL链接的时候，链接的地址和显示的文字要出现同时出现，但是我们一般需要连接地址和显示文字分开用的。

分组的书写的格式：(?<name>regex)，两个小括号见表示一个分组，<>两个尖括号中间表示的是分组的名字，regex表示正则表达式

eg：匹配的文本“<ahref="http://blog.csdn.net/rentiansheng">我的博客</a> “，正则表达式为”<a href="(?<URL>http://[\S]*)">(?<title>[\w]*)</a> “结果为结果共一个，这一个结果中有两组，值为”http://blog.csdn.net/rentianshenghe“和”我的博客“。（c#中测试的）

边界相关的

\b = [^a-z0-9A-Z_]，还有一个没有描述出来就是每一行的开始，即是什么也没有的。可以用来表示单词的边界。

下面我们举一个例子：

X：表示没法匹配。√：表示可以匹配

字符串

\brow\b

row\b

\brow

tomorrow

√

brown

rowdy

row

√

eg：匹配所有的单词 \b[\w]+\w

^：表示行的开始。与我们看到屏幕上的一行行是有区别的。因为屏幕上可能会因为一行装不下。所以自动换行造成的。对^来说前面没有见任何东西或者\n(只有window中式\r\n)后面的第一个单词才是。注意，回车并会产生的是\f因而不是换行。

$：表示是行的结束。即是最后一个单词。也有可能是\n(只有window中式\r\n)前面的一个单词。

|：多选

书写格式（regex|regex|regex|……|regex）

eg：身份证可以分为18位和15位，

匹配18位身份证的正则表达式“”

匹配15位身份证的正则表达式“[1-9]\d{14}”

所以同时匹配18又匹配15的正则表达式可以写作”([1-9]\d{16}[0-9x]| [1-9]\d{14})”但是一般写作“[1-9]\d{14}(\d{2}[0-9x])?”

eg： IP地址匹配。这个比较麻烦。我们只说其中的一段地址可能是1、2、3。

位数

取值范围

正则表达式

3位

100-199

1\d{2}

200-249

2[0-4][0-9]

250-255

25[0-4]

2位

10-99

[1-9]\d

0-9

随意IP地址其中一段地址的匹配位(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-4])

匹配IP地址位(\d|[1-9]\d|1\d{2}|2[0-4][0-9]|25[0-4]）)\.{4}。注意其中的\.表示匹配“.”。 “\”用来匹配转意字符的。

eg：文本为“doube times or 2 time”，正则表达式为“doube|2 times”，你可能认为结果是“doubletimes”和 “2times”，错了，结果是“double”和“2 time”。想让结果产生的是“double times”和 “2 times”的正则表达式是“doube times|2times”和 “（doube|2）times”，后面的会产生分组。

注意：|将本组中前面所有的表达式和和后面的表达进行的或运算。

0 0