正则表达式入门知识摘要
来源:互联网 发布:网络推手 编辑:程序博客网 时间:2024/05/16 16:16
正则表达式在不同的环境下的有些方面的表现是不相同的, .Net Framework 2.0下正则表达式的测试工具Regex Tester是个绿色软件。其他可用的测试工具有RegexBuddy和Javascript正则表达式在线测试工具。
元字符
例子:
/ba/w*/b匹配以字母a开头的单词——先是某个单词开始处(/b),然后是字母a,然后是任意数量的字母或数字(/w*),最后是单词结束处(/b)。
好吧,现在我们说说正则表达式里的单词是什么意思吧:就是不少于一个的连续的/w。不错,这与学习英文时要背的成千上万个同名的东西的确关系不大 :)
/d+匹配1个或更多连续的数字。这里的+是和*类似的元字符,不同的是*匹配重复任意次(可能是0次),而+则匹配重复1次或更多次。
/b/w{6}/b 匹配刚好6个字符的单词。比如一个网站如果要求你填写的QQ号必须为5位到12位数字时,可以使用:^/d{5,12}$。
字符转义
查找.和*需要使用 /.和/*。要查找/本身,你也得用//.
重复
一些常见的使用重复的例子:
Windows/d+匹配Windows后面跟1个或更多数字
^/w+匹配一行的第一个单词(或整个字符串的第一个单词,具体匹配哪个意思得看选项设置)
字符类
很简单,你只需要在方括号里列出它们就行了,像[aeiou]就匹配任何一个英文元音字母,[.?!]匹配标点符号(.或?或!)。 我们也可以轻松地指定一个字符范围,像[0-9]代表的含意与/d就是完全一致的:一位数字;同理[a-z0-9A-Z_]也完全等同于/w(如果只考虑英文的话)。 下面是一个更复杂的表达式:/(?0/d{2}[) -]?/d{8}。 “(”和“)”也是元字符,后面的分组节里会提到,所以在这里需要使用转义。 这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455,或02912345678等。我们对它进行一些分析吧:首先是一个转义字符/(,它能出现0次或1次(?),然后是一个0,后面跟着2个数字(/d{2}),然后是)或-或空格中的一个,它出现1次或不出现(?),最后是8个数字(/d{8})。 分支条件
正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|把不同的规则分隔开。看例子:
0/d{2}-/d{8}|0/d{3}-/d{7}这个表达式能匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)。
分组
我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作(后面会有介绍)。
(/d{1,3}/.){3}/d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:/d{1,3}匹配1到3位的数字,(/d{1,3}/.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(/d{1,3})。
不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:((2[0-4]/d|25[0-5]|[01]?/d/d?)/.){3}(2[0-4]/d|25[0-5]|[01]?/d/d?)。
反义
有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义:
例子:/S+匹配不包含空白符的字符串。
<a[^>]+>匹配用尖括号括起来的以a开头的字符串。
贪婪与懒惰
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。
有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:
a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。
为什么第一个匹配是aab(第一到第三个字符)而不是ab(第二到第三个字符)?简单地说,因为正则表达式有另一条规则,比懒惰/贪婪规则的优先级更高:最先开始的匹配拥有最高的优先权——The match that begins earliest wins。
详细参考deerchao 的《正则表达式30分钟入门教程》http://www.unibetter.com/deerchao/zhengzhe-biaodashi-jiaocheng-se.htm
- 正则表达式入门知识摘要
- 正则表达式入门知识摘要
- 正则表达式的入门知识
- 正则表达式简单入门知识
- 正则表达式入门-知识字典
- 正则表达式摘要
- 正则表达式摘要
- 正则表达式摘要
- 摘要:正则表达式
- 《精通正则表达式》读书笔记摘要: 第一章 入门(1)
- 《精通正则表达式》读书笔记摘要: 第一章 入门(2)
- 《精通正则表达式》读书笔记摘要: 第一章 入门(3)
- C#正则表达式的入门知识
- 正则表达式基本入门必备知识
- 正则表达式的构造摘要
- 正则表达式的构造摘要
- 正则表达式的构造摘要
- JAVA正则表达式构造摘要
- 小技巧给网页减肥 让网站访问提速
- E70最新UCWEB 6.7免签名下载.
- jQuery对象与DOM对象之间的转换
- Head First C# 中文版 第13章 控件和图形 page589
- SendMessage
- 正则表达式入门知识摘要
- 利用后退按钮进行重复提交的解决办法。
- php,linux写入文件时 实现换行的注意事项
- Struts2 验证问题:验证失败一次后就连续验证失败
- DB2 常用命令
- C++常见错误及编译错误汇集
- 字符串
- 解决SQL插入EXCEL字段顺序错乱问题
- 情侣十大旅游胜地(国内的哦)