正则表达式
来源:互联网 发布:mac系统语言切换 编辑:程序博客网 时间:2024/05/17 03:55
@Author:云都小生
概述
正则表达式是啥嘞?其实它也算一个微小且高度专业化的编程语言。它可以用来匹配/描述哪些你希望匹配的字符串,我们先来看几个例子。
场景1:在网页设计中,我们现在需要对用户输入进行验证,只要用户输入的不是8个数字就不能通过。这个我们怎么去检测?
再复杂点,我们想匹配邮件的格式,xxx@.com类似这种,但是不要.xxxx@.com这种··· 这个时候怎么办?
场景2:某个程序员想一个爬虫来挖掘一个网站中所有的IP地址,那我们应该怎么去匹配这些字符串?
正则表达式其实就是一套标准,可以通过这套标准,来描述、匹配某个字符串。
许多的编程语言都支持正则表达式,基本上都有正则表达式的身影。如果学会正则表达式,平时开发会更高效。
从元字符入手
首先我们需要认识一些元字符。
我们一个个来看,首先看看*、+、?和{},这四个用于限定匹配的次数。
ab*c,这个就能匹配它前面的子表达式0次或多次,例如说ac、abc、abbbc都可以;
ab+c,这个只能匹配前面子表达式一次或多次,ac就这个时候就不行了,必须是abc、abbc····
ab?c,这个匹配的是子表达式零次或一次,ac可以,abc可以,abbc、abbbc就不可以了。
{n},表示匹配前面的子表达式n次;
{n,m},表示匹配前面的子表达式n~m次,最少n次,最多n次;
{n,},表示匹配前面子表达式最少n次。
^和
[]方括号可以包含一系列字符,能匹配其中任意一个字符。用[^]包含一系列字符,能够匹配除了其中字符外的任意一个字符。[A-Z]匹配的是大写A~大写Z。如果[^a-z]匹配除了a~z外的其他任意字符。[abc5@]可以匹配”a”、”b”、”c”、”5”、”@”。
|当出现这个时候,它的意思是,要么匹配左边的,要么匹配右边的。[a-z]|[A-Z]表示匹配a~z或者A-Z。
普通字符与转义字符
字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是”普通字符”。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。
\r、\n代表回车和换行符,[\r\n]表示只匹配回车符和换行符;
\t代表制表符;
有一些在正则表达式中有特殊用途的,需要加上斜杠才能匹配自身,\^,匹配 ^ 符号本身;$匹配 $ 符号本身;.匹配小数点(.)本身。
除了这些,正则中还有一些其他的转义字符,\d代表的是任意一个数字,0~9;\w任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个;\s包括空格、制表符、换页符等空白字符的其中任意一个。
\b 匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符;
.小数点可以匹配除了换行符(\n)以外的任意一个字符。
贪婪与非贪婪模式
贪婪模式和非贪婪模式的区别在于:贪婪模式总是趋向于匹配更长的长度。
String str="abcaxc";Patter p="ab*c";
如果是贪婪模式,匹配的就是”abcaxc”,abxxxxc;
如果是非贪婪模式,匹配的就是”abc”,abc。
正则表达式默认是贪婪模式,如果在量词后面直接加上一个问号,就是非贪婪模式。
贪婪模式 \".+\"非贪婪模式 \".+?\"
2017/11/15 22:32:05 @Author:云都小生
- 【正则表达式】正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 在SpringMVC框架中实现文件上传和下载
- 内核kobject树形结构
- deepmind_lab 里面的相关的游戏场景引擎 《Quake III Arena》(雷神之锤III竞技场)
- 在EA中用ER图生成数据库
- 用户空间的设备与内核空间的设备、驱动关系
- 正则表达式
- PAT考试乙级1032(C语言实现)
- 我的电路实验
- Kobj与sys文件系统映射关系
- css样式
- 格雷编码器的设计
- java作业
- redis
- Oracle rman操作