正则表达式第一弹

来源：互联网发布：linux使用crontab-e 编辑：程序博客网时间：2024/06/06 02:46

参考博客：http://blog.csdn.net/u013785951/article/details/68499229

正则表达式到底是什么

正则表达式,（英语：Regular Expression，在代码中常简写为regex、regexp或RE），是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。
注意上文加粗的‘概念’，即用英文来说，叫做concept。显然，正则表达式是跟编程语言无关的，因此，我们可以使用任何编程语言去实现和使用它。幸运的是，绝大多数编程语言都已经实现了正则表达式，并且提供了相应的类或者API接口，我们可以在程序中直接使用它，而无需去考虑底层是如何实现的。

正则表达式可以用来做什么

1 验证字符串是否符合指定特征，比如验证是否是合法的邮件地址。
2 用来查找字符串，从一个长的文本中查找符合指定特征的字符串
3 用来替换，比普通的替换更强大
4 等等…

基本语法

一个正则表达式通常被称为一个模式（pattern），为用来描述或者匹配一系列匹配某个句法规则的字符串。
语法很简单，就是一个“字符串”。
例如： "hello Regular Expression" 这个字符串:
我们可以用下面语法来筛选出来：
1"hello Regular Expression"
2 "hello*"
3 "hello.+"
4 "hello .+n"
...
这些**描述**筛选出来，这里我们可以先不用管里面的"*",".","+"是什么意思，我们只需知道这个可以作为一个正则表达式的表示形式(基本语法)。

字符转义：

这里仍然有一个问题：如果我们需要匹配元字符本身，该如何处理？
那么就需要用到字符转义符号：'\'。
例如，如果我们需要从"test * test"匹配出 "*"这个符号，
那么正则表达式就要写成： "\*"，而不是"*",

值得注意的是转义字符本身：
如果我们需要从"test \ test"匹配出 "\"这个符号，
那么正则表达式就要写成： "\\\\"，而不是"\\"。

Demo:

package regular_expression;import java.util.regex.Matcher;import java.util.regex.Pattern;public class Chapter1 {    public static void main(String []args) {        String reg_str = "<!DOCTYPE html><html><head>   <title>我是title</title></head><body></body></html>";        String reg1 = "<title>.+</title>";        String reg2 = "<title>.*</title>";        Pattern p1=Pattern.compile(reg1);        Matcher m1=p1.matcher(reg_str);             Pattern p2=Pattern.compile(reg2);        Matcher m2=p2.matcher(reg_str);             if (m1.find()) {            System.out.println(m1.group());                 }        if (m2.find()) {            System.out.println(m2.group());                 }    }}

结果：
<title>我是title</title>
<title>我是title</title>

结果解释：

"<title>.+</title>"
# . 是正则表达式里面的元字符，查看元字符的文档可知，.表示 “匹配除换行符以外的任意字符”，因此他会匹配出
# <title>和</title>之间的任何非换行符。
# +也是正则表达式中的元字符，+表示匹配一次或者多次(即至少匹配一次，同{1,})
# 因此这个正则最终的意思就是匹配<title>和</title>之间的任何非换行符，并且至少匹配一次

# 同理 *表示0次或多次，即匹配<title>和</title>之间的任何非换行符，并且至少匹配0次。

两个的差别就是：
+不能匹配出 “<title></title>”字符串
*可以匹配出 “<title></title>”字符串
因为<title>和</title>之间一个字符也没有，所以需要*才能匹配。

Demo:

package regular_expression;import java.util.regex.Matcher;import java.util.regex.Pattern;import java.util.HashMap;import java.util.Map.Entry;public class Chapter1 {    public static void main(String []args) {        String reg_str = "词语1 \\q词语2 \\w词语3 \\ee词语1 \\q词语5 \\w词语6 \\e词语7 \\c";        String reg ="\\\\[a-z]{1,2}";        Pattern p=Pattern.compile(reg);        Matcher m=p.matcher(reg_str);               // 词性个数        HashMap<String, Integer> count_map = new HashMap<String, Integer>();        String value = "";        while (m.find()) {            value = m.group();            if (count_map.get(value) != null) {                count_map.put(value, count_map.get(value) + 1);            } else {                count_map.put(value,1);            }        }        for (Entry<String, Integer> entry: count_map.entrySet()){            System.out.println("词性"+entry.getKey()+"的个数为"+ Integer.toString(entry.getValue()));         }           }}

结果：

词性\q的个数为2
词性\c的个数为1
词性\e的个数为1
词性\w的个数为2
词性\ee的个数为1

结果解释：
“\\[a-z]{1,2} 表示匹配 ‘\’符号加上后面的任意1-2个英文小写字母。
即：\字母表示词性的话，那么这个正则就已经把所有词的词性的个数都已经筛选出来。最后再经过词性的map操作，就把所有词性的个数计算出来了。

PS：至于为什么是\\\\，文章前面已经提到

阅读全文

0 0