正则表达式的懒惰匹配和前瞻等

来源：互联网发布：李米的猜想知乎编辑：程序博客网时间：2024/05/26 15:58

正则表达式的【贪婪匹配】和【懒惰匹配】

一、贪婪匹配
正则表达式通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。比如这个表达式：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

二、懒惰匹配
懒惰匹配，也就是匹配尽可能少的字符。在能使整个匹配成功的前提下使用最少的重复，只要在它后面加上一个问号?即可。现在看看懒惰版的例子吧：
a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）
为什么第一个匹配是aab（第一到第三个字符）而不是ab（第二到第三个字符）？简单地说，因为正则表达式有一条比懒惰／贪婪规则优先级更高的规则，就是：最先开始的匹配拥有最高的优先权

【正则表达式】前瞻，后顾，负前瞻，负后顾

举个例子：
有个字符串str = “博客园顾客博客客园”
我们想匹配字符串里”博客园”的”客”字而不要其他的”客”字，这时就需要用到前瞻后顾。

正则表达式如下：
(?<=博)客(?=园)

反过来，我们不想要”博客园”的”客”字，但是想要其他”客”字。这时就要用到负前瞻，负后顾

正则表达式如下：
(?

总结一下：

前瞻： exp1(?=exp2) 查找exp2前面的exp1

后顾: (?<=exp2)exp1 查找exp2后面的exp1

负前瞻: exp1(?!exp2) 查找后面不是exp2的exp1

负后顾: (?

结合前瞻和懒惰匹配的一个例子

如果要从字符串中截取第一个英文左括号之前的字符串，例如：北京市(朝阳区)(西城区)(海淀区)，截取结果为：北京市，那么正则表达式怎么写？

import java.util.regex.Matcher;import java.util.regex.Pattern;/** * Created by zhaojy on 2017/4/10. */public class RegExpTest {    public static void main(String[] args) {        String str = "北京市(朝阳区)(西城区)(海淀区)";        Pattern p = Pattern.compile(".*?(?=\\()");        Matcher m = p.matcher(str);        if(m.find()) {            System.out.println(m.group());        }    }}

.*?(?=\\()

中的

.*?(    )

是懒惰匹配以任意字符开始，以某个字符结束的所有字符最短字符串；

?=\\(

是前瞻匹配英文括号‘(’前面的所有字符；

 if(m.find()) {            System.out.println(m.group());        }

if(m.find())则打印第一次匹配，结果为：

北京市

 while(m.find()) {            System.out.println(m.group());        }

while(m.find()) 打印所有匹配,结果为：

北京市朝阳区)西城区)

0 0