Java之正则表达式

来源:互联网 发布:手机淘宝怎么修改地址 编辑:程序博客网 时间:2024/06/15 23:46

前言

  正则表达式是处理字符串匹配问题的工具,在爬虫和数据校验的时候用的比较多,下面介绍一下Java中正则表达式的若干规则。

语法

元字符 描述 .(点) 匹配除”\r\n”之外的任何单个字符。若要匹配包括”\r\n”在内的任意字符,请使用诸如”[\s\S]”之类的模式。 * 零次或多次匹配前面的字符或子表达式。例如,zo* 匹配”z”和”zoo”。* 等效于 {0,}。 + 一次或多次匹配前面的字符或子表达式。例如,”zo+”与”zo”和”zoo”匹配,但与”z”不匹配。+ 等效于 {1,}。 ? 当此字符紧随任何其他限定符(*、+、?、{n}、{n,}、{n,m})之后时,匹配模式是”非贪心的”。”非贪心的”模式匹配搜索到的、尽可能短的字符串,而默认的”贪心的”模式匹配搜索到的、尽可能长的字符串。例如,在字符串”oooo”中,”o+?”只匹配单个”o”,而”o+”匹配所有”o”。其它用法中表示零次或一次 ?例子 *? 重复任意次,但尽可能少重复; +? 重复1次或更多次,但尽可能少重复; ?? 重复0次或1次,但尽可能少重复; {n,m}? 重复n到m次,但尽可能少重复; {n,}? 重复n次以上,但尽可能少重复 ^ 匹配输入字符串开始的位置;还可以用到否定意义 $ 匹配输入字符串结尾的位置 {n} n 是非负整数。正好匹配 n 次。例如,”o{2}”与”Bob”中的”o”不匹配,但与”food”中的两个”o”匹配。 {n,} n 是非负整数。至少匹配 n 次。例如,”o{2,}”不匹配”Bob”中的”o”,而匹配”foooood”中的所有 o。”o{1,}”等效于”o+”。”o{0,}”等效于”o*” {n,m} 匹配至少 n 次,至多 m 次。例如,”o{1,3}”匹配”fooooood”中的头三个 o。’o{0,1}’ 等效于 ‘o?’。注意:您不能将空格插入逗号和数字之间。 \d 数字字符匹配。等效于 [0-9]。 \D 非数字字符匹配。等效于 [^0-9] \s 匹配任何空白字符,包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。 \S 匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效 \b 匹配一个字边界,即字与空格间的位置。例如,”er\b”匹配”never”中的”er”,但不匹配”verb”中的”er”。 \B 非字边界匹配。”er\B”匹配”verb”中的”er”,但不匹配”never”中的”er”。 \w 匹配任何字类字符,包括下划线。与”[A-Za-z0-9_]”等效。 \W 与任何非单词字符匹配。与”[^A-Za-z0-9_]”等效。 [xyz] 字符集。匹配包含的任一字符。例如,”[abc]”匹配”plain”中的”a”。 [^xyz] 反向字符集。匹配未包含的任何字符。例如,”[^abc]”匹配”plain”中”p”,”l”,”i”,”n”。 [a-z] 字符范围。匹配指定范围内的任何字符。例如,”[a-z]”匹配”a”到”z”范围内的任何小写字母 [^a-z] 反向范围字符。匹配不在指定的范围内的任何字符。例如,”[^a-z]”匹配任何不在”a”到”z”范围内的任何字符。 (pattern) 匹配 pattern 并捕获该匹配的子表达式。可以使用 09 属性从结果”匹配”集合中检索捕获的匹配。若要匹配括号字符 ( ),请使用”(“或者”)”。 (?=pattern) 预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。

对小括号的解释的例子:
1、(abc|bcd|cde),表示这一段是abc、bcd、cde三者之一均可,顺序也必须一致
2、(abc)?,表示这一组要么一起出现,要么不出现,出现则按此组内的顺序出现
3、a(?=bbb) 顺序环视 表示a后面必须紧跟3个连续的b

程序测试练习

package com.spyder;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.junit.Test;public class RegTest {    @Test    public void test1(){        System.out.println("abc".matches("..."));  // true        System.out.println("a8729a".replaceAll("\\d", "-")); // a----a        Pattern p = Pattern.compile("[a-z]{3}");        Matcher m = p.matcher("fgh");        System.out.println(m.matches()); // true        System.out.println("fgha".matches("[a-z]{3}")); // false    }    @Test    public void test2(){        System.out.println("a".matches("."));// true        System.out.println("aa".matches("aa"));// true        System.out.println("aaaa".matches("a*")); // true        System.out.println("aaaa".matches("a+"));// true        System.out.println("".matches("a*"));// true        System.out.println("aaaa".matches("a?"));// false        System.out.println("".matches("a?"));// true        System.out.println("a".matches("a?"));// true        System.out.println("214523145234532".matches("\\d{3,100}"));// true        System.out.println("192.168.0.aaa".matches("\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}"));//false        System.out.println("192".matches("[0-2][0-9][0-9]")); // true    }    @Test    public void test3(){        System.out.println("a".matches("[abc]")); // true        System.out.println("a".matches("[^abc]")); // false        System.out.println("A".matches("[a-zA-Z]"));// true        System.out.println("A".matches("[a-z]|[A-Z]"));// true        System.out.println("A".matches("[a-z[A-Z]]"));// true        System.out.println("R".matches("[A-Z&&[RFG]]"));// true    }    @Test    public void test4(){        System.out.println(" \n\r\t".matches("\\s{4}"));// true        System.out.println(" ".matches("\\S"));// false        System.out.println("a_8".matches("\\w{3}"));// true        System.out.println("abc888&^%".matches("[a-z]{1,3}\\d+[&^#%]+"));// true        System.out.println("\\".matches("\\\\"));// true    }    @Test    public void test5(){        System.out.println("hello sir".matches("^h.*"));// true        System.out.println("hello sir".matches(".*ir$"));// true        System.out.println("hello sir".matches("^h[a-z]{1,3}o\\b.*"));// true        System.out.println("hellosir".matches("^h[a-z]{1,3}o\\b.*")); // false        System.out.println(" \n".matches("^[\\s&&[^\\n]]*\\n$"));// true        System.out.println("aaa 8888c".matches(".*\\d{4}."));// true        System.out.println("aaa 8888c".matches(".*\\b\\d{4}."));// true        System.out.println("aaa8888c".matches(".*\\d{4}."));// true        System.out.println("aaa8888c".matches(".*\\b\\d{4}."));// false    }    @Test    public void test6(){        Pattern p = Pattern.compile("\\d{3,5}");        String s = "123-34345-234-00";        Matcher m = p.matcher(s);        System.out.println(m.matches()); // false        m.reset();        // reset:给当前的Matcher对象配上个新的目标,目标是就该方法的参数;如果不给参数,reset会把Matcher设到当前字符串的开始处。        System.out.println(m.find());// true        System.out.println(m.start() + "-" + m.end());// 0-3        System.out.println(m.find());// true        System.out.println(m.start() + "-" + m.end());// 4-9        System.out.println(m.find());// true        System.out.println(m.start() + "-" + m.end());// 10-13        System.out.println(m.find());// false        // find:部分匹配,从当前位置开始匹配,找到一个匹配的子串,将移动下次匹配的位置。        // p(m.start() + "-" + m.end());        System.out.println(m.lookingAt());// true        System.out.println(m.lookingAt());// true        System.out.println(m.lookingAt());// true        System.out.println(m.lookingAt());// true        // lookingAt 部分匹配,总是从第一个字符进行匹配,匹配成功了不再继续匹配,匹配失败了,也不继续匹配。    }    @Test    public void test7(){        Pattern p = Pattern.compile("(\\d{3,5})([a-z]{2})");        String s = "123aa-34345bb-234cc-00";        Matcher m = p.matcher(s);        while(m.find()) {            System.out.println(m.group());            /**             * 123aa             * 34345bb             * 234cc             */        }    }}