Java正则表达式

来源：互联网发布：数据库镜像数据库备份编辑：程序博客网时间：2024/04/28 07:33

一、Java正则表达式

正则表达式是一种可以用于模式匹配和替换的规范，一个正则表达式就是由普通的字符（例如字符a到z）以及特殊字符（元字符）组成的文字模式，它用以描述在查找文字主体时待匹配的一个或多个字符串。

先来了解一下正则表达式的部分构造摘要：

构造

匹配

字符

字符 x

反斜线字符

制表符 ('\u0009')

新行（换行）符 ('\u000A')

回车符 ('\u000D')

换页符 ('\u000C')

报警 (bell) 符 ('\u0007')

转义符 ('\u001B')

字符类

[abc]

a、b 或 c（简单类）

[^abc]

任何字符，除了 a、b 或 c（否定）

[a-zA-Z]

a 到 z 或 A 到 Z，两头的字母包括在内（范围）

[a-d[m-p]]

a 到 d 或 m 到 p：[a-dm-p]（并集）

[a-z&&[def]]

d、e 或 f（交集）

[a-z&&[^bc]]

a 到 z，除了 b 和 c：[ad-z]（减去）

[a-z&&[^m-p]]

a 到 z，而非 m 到 p：[a-lq-z]（减去）

预定义字符类

任何字符（与行结束符可能匹配也可能不匹配）

数字：[0-9]

非数字： [^0-9]

空白字符：[ \t\n\x0B\f\r]

非空白字符：[^\s]

单词字符：[a-zA-Z_0-9]

非单词字符：[^\w]

边界匹配器

行的开头

行的结尾

单词边界

非单词边界

输入的开头

上一个匹配的结尾

输入的结尾，仅用于最后的结束符（如果有的话）

输入的结尾

Greedy 数量词

X，一次或一次也没有

X，零次或多次

X+

X，一次或多次

X{n}

X，恰好 n 次

X{n,}

X，至少 n 次

X{n,m}

X，至少 n 次，但是不超过 m 次

Reluctant 数量词

X??

X，一次或一次也没有

X*?

X，零次或多次

X+?

X，一次或多次

X{n}?

X，恰好 n 次

X{n,}?

X，至少 n 次

X{n,m}?

X，至少 n 次，但是不超过 m 次

Possessive 数量词

X?+

X，一次或一次也没有

X*+

X，零次或多次

X++

X，一次或多次

X{n}+

X，恰好 n 次

X{n,}+

X，至少 n 次

X{n,m}+

X，至少 n 次，但是不超过 m 次

Logical 运算符

X 后跟 Y

X|Y

X 或 Y

(X)

X，作为捕获组

正则表达式对字符串的常见操作:

1、匹配（其实使用的就是String类中的matches方法）

//匹配手机号码是否正确。 String str = "15158041079";boolean b = str.matches("1[358]\\d{9}");//1[358][0-9]{9}System.out.println(b);

2、切割（主要用到String类的split方法）
2.1 根据一个或多个点来拆分字符串

public static void main(String[] args) {String str = "zhangsan...lisi..wangwu";// 根据一个或多个点来拆分字符串String[] names = str.split("\\.+");for (String name : names) {System.out.println(name);}}

输出结果：

zhangsan
lisi
wangwu

2.2 删除叠词

public static void main(String[] args) {String str = "zhangsan666lisitttwangwu";// "."代表任意字符，（.）把它封装为组，编号为1...n,调用它直接用编号，//1由于代 表的是正常的 1，用\1将它转义为组编号，由于是在字符串中，再用\\1来转义String[] names = str.split("(.)\\1+");for (String name : names) {System.out.println(name);}}

输出结果：

zhangsan
lisi
wangwu

3、替换（使用到了String类中的replaceAll()方法）

public static void main(String[] args) {String str = "zhangsanttttlisimmmwangwu";str = str.replaceAll("(.)\\1+", "$1");// $符号调用了前面参数中的第1组System.out.println(str);String tel = "15158041079";// 括号表示 组 被替换的部分 $n 表示 第n组的内容tel = tel.replaceAll("(\\d{4})\\d{3}(\\d{4})", "$1****$2");System.out.println(tel);// 1382****1111}

输出结果：

zhangsantlisimwangwu
1382****1111
4、获取

public static void main(String[] args) {String str = "da asdf sdf,sdkfh,sdk sdhh jtt!";String regex = "\\b[a-z]{3}\\b";// 1,将正则规则进行对象的封装Pattern p = Pattern.compile(regex);// 2, 通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher 。Matcher m = p.matcher(str);// 使用Matcher对象的方法对字符串进行操作。// 既然要获取三个字母组成的单词// 查找 find();System.out.println(str);while (m.find()) {System.out.println(m.group());// 获取匹配的子序列}}

输出结果：

da asdf sdf,sdkfh,sdk sdhh jtt!
sdf
sdk
jtt

正则表达式练习：

网页爬虫：

/* * 网页爬虫：其实就一个程序用于在互联网中获取符合指定规则的数据。 爬取邮箱地址。 */public static void main(String[] args) throws IOException {List<String> list = getMails();for (String mail : list) {System.out.println(mail);}}public static List<String> getMails() throws IOException {// 1,读取源文件。BufferedReader bufr = new BufferedReader(new FileReader("D:\\mail.html"));// 2,对读取的数据进行规则的匹配。从中获取符合规则的数据.String mail_regex = "\\w+@\\w+(\\.\\w+)+";List<String> list = new ArrayList<String>();Pattern p = Pattern.compile(mail_regex);String line = null;while ((line = bufr.readLine()) != null) {Matcher m = p.matcher(line);while (m.find()) {// 3,将符合规则的数据存储到集合中。list.add(m.group());}}bufr.close();return list;}

0 0