正则表达式入门

来源:互联网 发布:画画的软件 编辑:程序博客网 时间:2024/06/09 15:17

一.基础知识

字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等等。

字符串是0个或更多个字符的序列。

文本也就是文字,字符串。

说某个字符串匹配某个正则表达式,通常是指这个字符串里有一部分(或几部分分别)能满足表达式给出的条件。

元字符,metacharacter

二.正则表达式是什么

在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。

很可能你使用过Windows/Dos下用于文件查找的通配符(wildcard),也就是*?。如果你想查找某个目录下的所有的Word文档的话,你会搜索*.doc。在这里,*会被解释成任意的字符串。和通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你的需求——当然,代价就是更复杂——比如你可以编写一个正则表达式,用来查找所有以0开头,后面跟着2-3个数字,然后是一个连字号“-”,最后是7或8位数字的字符串(像010-123456780376-7654321)。

三.正则表达式常用元字符

\b单词的开头或结尾,也就是单词的分界处

.除了换行符以外的任意字符

*前边的内容可以连续重复使用任意次以使整个表达式得到匹配

+前边的内容可以连续重复1次或更多次(不同于*,*可以是任意次,而+不能是一次)

.*任意数量的不包含换行的字符

\d一位数字(0,或1,或2,或……)

-不是元字符,只匹配它本身——连字符(或者减号,或者中横线,或者随你怎么称呼它)

\s任意的空白符,包括空格,制表符(Tab),换行符,中文全角空格等

\w字母或数字或下划线或汉字等

^匹配字符串的开始

$匹配字符串的结束

{5,12}重复的次数不能少于5次,不能多于12次

.正则表达式例子

hi由两个字符组成,前一个字符是h,后一个是i

\bhi\b精确地查找hi这个单词

\bhi\b.*\bLucy\b先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词

0\d\d-\d\d\d\d\d\d\d\d以0开头,然后是两个数字,然后是一个连字号“-”,最后是8个数字

0\d{2}-\d{8}当然也可以写成这样

\ba\w*\b以字母a开头的单词——先是某个单词开始处(\b),然后是字母a,然后是任意数量的字母或数字(\w*),最后是单词结束处(\b)

\d+1个或更多连续的数字

\b\w{6}\b刚好6个字符的单词

五.字符转义

如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.\*。当然,要查找\本身,你也得用\\.

六.正则表达式中的限定符

*重复零次或更多次

+重复一次或更多次

?重复零次或一次

{n}重复n次

{n,}重复n次或更多次

{n,m}重复n到m次

六.查找没有预定义元字符的字符集合(比如元音字母a,e,i,o,u)

只需要在方括号里列出它们就行了

eg. [aeiou]任何一个英文元音字母

[.?!]标点符号(.或?或!)

[0-9]一位数字


原创粉丝点击