正则表达式

来源：互联网发布：网络人肉搜索现象分析编辑：程序博客网时间：2024/06/15 16:26

参考文章地址：http://www.cnblogs.com/China3S/archive/2013/11/30/3451971.html

什么是正则表达式

正则表达式是一种特殊的字符串模式，用于匹配一组字符串，简单的说，正则表达式是一种符号表示法，用于识别文本模式，在某种程度上，它们类似于匹配文件和路径名时使用的shell通配符，但其用途更广泛。
常用正则匹配软件:Match Tracer
下载地址： http://www.regexlab.com/zh/mtracer/

grep 文本搜索

在linux上，用来处理正则表达式的主要程序是grep,grep搜索文本文件中与指定正则表达式匹配的行，并将结果送至标准输出

grep [option] regex [file...]

ls /usr/bin | grep zip //利用grep搜索固定的字符串zip 并将结果输出

常用参数意义 -i 忽略大小写 -v 不匹配的。。 -c 输出匹配项数目，也可以用–count 指定 -n 在每个匹配行前面加上行号 -h 多文件索搜时，抑制文件名输出

grep -v "#" /etc/vsftpd/vsftpd.conf_bak > /etc/vsftpd/vsftpd.conf //去掉#号并将结果输出到另一个文件grep bzip dirlist*.txt  //对文件表进行搜索字符串bzip

正则表达式之元字符

正则表达式的元字符包括以下字符 ^ $ . [ ] { } ~ ? * + ( ) | \
     "^" ：^会匹配行或者字符串的起始位置，有时还会匹配整个文档的起始位置。      "$"  ：$会匹配行或字符串的结尾     "."：匹配除了换行符以外的任何字符.这个算是"\w"的加强版了,"\w"不能匹配 空格 如果把字符串加上空格用"\w"就受限了，看下用 "."是如何匹配字符  "a23 4 5 B C D__TTz"   正则：".+"      "[abc]": 字符组  匹配包含括号内元素的字符 这个比较简单了只匹配括号内存在的字符，还可以写成[a-z]匹配a至z的所以字母就等于可以用来控制只能输入英文了，[A-Z] 等等      "*" : 代表任意字符      正则表达式 "^?"(行开头和行结尾之间没有字符)，将会匹配空行      否定：如果中括号的第一个字符是插入符 "^" 那么剩下的字符则被当作不应该在指定位置出现的字符： "[^abc]"  匹配除了abc以外的任意字符      几种反义:            "\W"   匹配任意不是字母，数字，下划线 的字符;            "\S"   匹配任意不是空白符的字符;            "\D"  匹配任意非数字的字符;            "\B"  匹配不是单词开头或结束的位置
“\b” :不会消耗任何字符只匹配一个位置，常用于匹配单词边界如我想从字符串中”This is Regex”匹配单独的单词 “is” 正则就要写成 “\bis\b”

\b 不会匹配is 两边的字符，但它会识别is 两边是否为单词的边界

“\d”: 匹配数字，

例如要匹配一个固定格式的电话号码以0开头前4位后7位，如0737-5686123 正则:^0\d\d\d-\d\d\d\d\d\d\d$ 这里只是为了介绍”\d”字符，实际上有更好的写法会在下面介绍。

“\w”：匹配字母，数字，下划线.

例如我要匹配”a2345BCD__TTz” 正则：”\w+” 这里的”+”字符为一个量词指重复的次数，稍后会详细介绍。
“\s”：匹配空格

例如字符 “a b c” 正则：”\w\s\w\s\w” 一个字符后跟一个空格，如有字符间有多个空格直接把”\s” 写成 “\s+” 让空格重复

量词

先解释关于量词所涉及到的重要的三个概念

贪婪(贪心) 如”*”字符贪婪量词会首先匹配整个字符串，尝试匹配时，它会选定尽可能多的内容，如果失败则回退一个字符，然后再次尝试回退的过程就叫做回溯，它会每次回退一个字符，直到找到匹配的内容或者没有字符可以回退。相比下面两种贪婪量词对资源的消耗是最大的，

懒惰(勉强) 如 “?” 懒惰量词使用另一种方式匹配，它从目标的起始位置开始尝试匹配，每次检查一个字符，并寻找它要匹配的内容，如此循环直到字符结尾处。

占有如”+” 占有量词会覆盖事个目标字符串，然后尝试寻找匹配内容，但它只尝试一次，不会回溯，就好比先抓一把石头，然后从石头中挑出黄金

    "|" 或者    "*"(贪婪)   重复零次或更多    例如"aaaaaaaa" 匹配字符串中所有的a  正则： "a*"   会出到所有的字符"a"    "+"(懒惰)   重复一次或更多次    例如"aaaaaaaa" 匹配字符串中所有的a  正则： "a+"  会取到字符中所有的a字符，  "a+"与"a*"不同在于"+"至少是一次而"*" 可以是0次，    "?"(占有)   重复零次或一次    例如"aaaaaaaa" 匹配字符串中的a 正则 ： "a?" 只会匹配一次，也就是结果只是单个字符a    "{n}"  重复n次    例如从"aaaaaaaa" 匹配字符串的a 并重复3次 正则：  "a{3}"  结果就是取到3个a字符  "aaa";    "{n,m}"  重复n到m次    例如正则 "a{3,4}" 将a重复匹配3次或者4次 所以供匹配的字符可以是三个"aaa"也可以是四个"aaaa" 正则都可以匹配到    "{n,}"  重复n次或更多次    与{n,m}不同之处就在于匹配的次数将没有上限，但至少要重复n次 如 正则"a{3,}" a至少要重复3次    把量词了解了之后之前匹配电话号码的正则现在就可以改得简单点了^0\d\d\d-\d\d\d\d\d\d\d可以改为"0\d+−\d7可以改为"0\d+−\d7"。    这样写还不够完美如果因为前面的区号没有做限定，以至于可以输入很多们，而通常只能是3位或者4位，    现在再改一下 "^0\d{2,3}-\d{7}"如此一来区号部分就可以匹配3位或者4位的了

懒惰限定符

    "*?"   重复任意次，但尽可能少重复     如 "acbacb"  正则  "a.*?b" 只会取到第一个"acb" 原本可以全部取到但加了限定符后，只会匹配尽可能少的字符 ，而"acbacb"最少字符的结果就是"acb"     "+?"  重复1次或更多次，但尽可能少重复    与上面一样，只是至少要重复1次    "??"  重复0次或1次，但尽可能少重复    如 "aaacb" 正则 "a.??b" 只会取到最后的三个字符"acb"    "{n,m}?"  重复n到m次，但尽可能少重复    如 "aaaaaaaa"  正则 "a{0,m}" 因为最少是0次所以取到结果为空    "{n,}?"    重复n次以上，但尽可能少重复    如 "aaaaaaa"  正则 "a{1,}" 最少是1次所以取到结果为 "a"

正则进阶

先了解在正则中捕获分组的概念，其实就是一个括号内的内容如 “(\d)\d” 而”(\d)” 这就是一个捕获分组，可以对捕获分组进行后向引用 (如果后而有相同的内容则可以直接引用前面定义的捕获组，以简化表达式) 如(\d)\d\1 这里的”\1”就是对”(\d)”的后向引用

那捕获分组有什么用呢看个例子就知道了

如 “zery zery” 正则 \b(\w+)\b\s\1\b 所以这里的”\1”所捕获到的字符也是与(\w+)一样的”zery”，为了让组名更有意义，组名是可以自定义名字的

“\b(?\w+)\b\s\k\b” 用”?”就可以自定义组名了而要后向引用组时要记得写成 “\k”;自定义组名后,捕获组中匹配到的值就会保存在定义的组名里

下面列出捕获分组常有的用法

    "(exp)"    匹配exp,并捕获文本到自动命名的组里    "(?<name>exp)"   匹配exp,并捕获文本到名称为name的组里    "(?:exp)"  匹配exp,不捕获匹配的文本，也不给此分组分配组号

以下为零宽断言

    "(?=exp)"  匹配exp前面的位置

如 “How are you doing” 正则”(?.+(?=ing))” 这里取ing前所有的字符，并定义了一个捕获分组名字为 “txt” 而”txt”这个组里的值为”How are you do”;
    "(?<=exp)"  匹配exp后面的位置
如 “How are you doing” 正则”(?(?<=How).+)” 这里取”How”之后所有的字符，并定义了一个捕获分组名字为 “txt” 而”txt”这个组里的值为” are you doing”;
    "(?!exp)"  匹配后面跟的不是exp的位置    如 "123abc" 正则 "\d{3}(?!\d)"匹配3位数字后非数字的结果    "(?<!exp)"  匹配前面不是exp的位置    如 "abc123 " 正则 "(?<![0-9])123" 匹配"123"前面是非数字的结果也可写成"(?!<\d)123"

POSIX字符类

传统的字符范围表示方法很容易理解，而且能够有效、快速地指定字符集。但不足之处在于，它并不是所有情况都适用。

[me@linuxbox ~]$ ls /usr/sbin/[ABCDEFGHIJKLMNOPQRSTUVWXYZ]*/usr/sbin/MAKEFLOPPIES/usr/sbin/NetworkManagerDispatcher/usr/sbin/NetworkManager

Linux发行版本不同，上述命令行得到的结果可能会不同，甚至有可能是空列表。本例中的列表来自于Ubuntu系统。该命令行得到了预期效果—只有以大写字母开头的文件列表。但是，如果我们使用下面的命令行，便会得到完全不同的结果（只显示了输出结果的一部分）。

[me@linuxbox ~]$ ls /usr/sbin/[A-Z]*/usr/sbin/biosdecode/usr/sbin/chat/usr/sbin/chgpasswd/usr/sbin/chpasswd/usr/sbin/chroot/usr/sbin/cleanup-info/usr/sbin/complain/usr/sbin/console-kit-daemon

为什么会出现这样的差异？说来话长，简单解释如下。

在UNIX开发初期，它只识别ASCII字符，而正是这一特性导致了上面的差异。在ASCII码中，前32个字符（第0~31字符）都是控制字符（像Tab键、空格键以及Enter键等），后32个字符（第32~63）包含可打印字符，包括大多数的标点符号以及数字0~9，接下来的32个（第64~95）包含大写字母和一些标点符号，最后的31个（第96~127）则包含小写字母以及更多的标点符号。基于这样的安排，使用ASCII的系统使用了下面这种排序：

ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz

这与通常的字典顺序不一样，字典中字母的顺序表通常如下。

aAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStTuUvVwWxXyYzZ

随着UNIX在美国以外国家的普及，人们越来越希望计算机能支持美式英语中找不到的字符。于是，ASCII字符表也得以扩展，开始使用 8 位二进制来表示，这也就增加了第 188～255 的字符，兼容了更多的语言。为了支持这种功能，POSIX标准引入了域（locale）的概念，它通过不停调整以选择特定的位置所需要的字符集。我们可以使用下面的命令行查看系统的语言设置。

[me@linuxbox ~]$ echo $LANGen_US.UTF-8

有了这个设置，POSIX兼容的应用程序使用的便是字典中的字母排列顺序，而不是用ASCII码中的字符排列顺序。这样，便解释了上面命令行的诡异行为。A~Z的字符范围，用字典中的顺序诠释时，包括了字母表中除了小写字母a的所有字母，因此使用命令行ls /usr/sbin/[A-Z]*才会出现全然不同的结果。

为了解决这一问题，POSIX标准包含了许多标准字符类，这些字符类提供了一些有用的字符范围，如下：

字符类描述 [:alnum:] 字母字符和数字字符；在ASCII码中，与[A-Za-z0-9]等效 [:word:] 基本与[:alnum:]一样，只是多了一个下划线字符(_) [:alpha:] 字母字符；在ASCII中，等效于[A-Za-z] [:blank:] 包括空格和制表符 [:cntrl:] ASCII控制码；包括ASCII字符0~31以及127 [:digit:] 数字0~9 [:graph:] 可见字符；在ASCII中，包括字符33~126

续表

字符类描述 [:lower:] 小写字母 [:punct:] 标点符号字符；在ASCII中，与[-!”#$%&’()*+,./:;<=>?@[\]_`{ [:print:] 可打印字符；包括[:graph:]中的所有字符再加上空格字符 [:space:] 空白字符如空格符、制表符、回车符、换行符、垂直制表符以及换页符。在ASCII中，等效为[ \t\r\n\v\f] [:upper:] 大写字母 [:xdigit:] 用于表示十六进制的字符；在ASCII中，与[0-9A-Fa-f]等效

使用字符类，我们可以重复上述大写字母的例子，并得到改善的输出结果。

[me@linuxbox ~]$ ls /usr/sbin/[[:upper:]]*/usr/sbin/MAKEFLOPPIES/usr/sbin/NetworkManagerDispatcher/usr/sbin/NetworkManager

然而，请记住，上述并不是一个正则表达式的示例，它其实是shell路径名扩展的一个例子。在此处提及，主要是因为这两种用法都支持POSIX字符类。

0 0