正则表达式第一弹
来源:互联网 发布:linux使用crontab-e 编辑:程序博客网 时间:2024/06/06 02:46
参考博客:http://blog.csdn.net/u013785951/article/details/68499229
正则表达式到底是什么
正则表达式,(英语:Regular Expression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。注意上文加粗的‘概念’,即用英文来说,叫做concept。显然,正则表达式是跟编程语言无关的,因此,我们可以使用任何编程语言去实现和使用它。幸运的是,绝大多数编程语言都已经实现了正则表达式,并且提供了相应的类或者API接口,我们可以在程序中直接使用它,而无需去考虑底层是如何实现的。
正则表达式可以用来做什么
1 验证字符串是否符合指定特征,比如验证是否是合法的邮件地址。2 用来查找字符串,从一个长的文本中查找符合指定特征的字符串
3 用来替换,比普通的替换更强大
4 等等…
基本语法
一个正则表达式通常被称为一个模式(pattern),为用来描述或者匹配一系列匹配某个句法规则的字符串。语法很简单,就是一个“字符串”。
例如: "hello Regular Expression" 这个字符串:
我们可以用下面语法来筛选出来:
1"hello Regular Expression"
2 "hello*"
3 "hello.+"
4 "hello .+n"
...
这些**描述**筛选出来,这里我们可以先不用管里面的"*",".","+"是什么意思,我们只需知道这个可以作为一个正则表达式的表示形式(基本语法)。
字符转义:
这里仍然有一个问题:如果我们需要匹配元字符本身,该如何处理?那么就需要用到字符转义符号:'\'。
例如,如果我们需要从"test * test"匹配出 "*"这个符号,
那么正则表达式就要写成: "\*",而不是"*",
值得注意的是转义字符本身:
如果我们需要从"test \ test"匹配出 "\"这个符号,
那么正则表达式就要写成: "\\\\",而不是"\\"。
Demo:
package regular_expression;import java.util.regex.Matcher;import java.util.regex.Pattern;public class Chapter1 { public static void main(String []args) { String reg_str = "<!DOCTYPE html><html><head> <title>我是title</title></head><body></body></html>"; String reg1 = "<title>.+</title>"; String reg2 = "<title>.*</title>"; Pattern p1=Pattern.compile(reg1); Matcher m1=p1.matcher(reg_str); Pattern p2=Pattern.compile(reg2); Matcher m2=p2.matcher(reg_str); if (m1.find()) { System.out.println(m1.group()); } if (m2.find()) { System.out.println(m2.group()); } }}
结果:
<title>我是title</title>
<title>我是title</title>
结果解释:
"<title>.+</title>"# . 是正则表达式里面的元字符,查看元字符的文档可知,.表示 “匹配除换行符以外的任意字符”,因此他会匹配出
# <title>和</title>之间的任何非换行符。
# +也是正则表达式中的元字符,+表示匹配一次或者多次(即至少匹配一次,同{1,})
# 因此这个正则最终的意思就是 匹配<title>和</title>之间的任何非换行符,并且至少匹配一次
# 同理 *表示0次或多次,即匹配<title>和</title>之间的任何非换行符,并且至少匹配0次。
两个的差别就是:
+不能匹配出 “<title></title>”字符串
*可以匹配出 “<title></title>”字符串
因为<title>和</title>之间一个字符也没有,所以需要*才能匹配。
Demo:
package regular_expression;import java.util.regex.Matcher;import java.util.regex.Pattern;import java.util.HashMap;import java.util.Map.Entry;public class Chapter1 { public static void main(String []args) { String reg_str = "词语1 \\q词语2 \\w词语3 \\ee词语1 \\q词语5 \\w词语6 \\e词语7 \\c"; String reg ="\\\\[a-z]{1,2}"; Pattern p=Pattern.compile(reg); Matcher m=p.matcher(reg_str); // 词性个数 HashMap<String, Integer> count_map = new HashMap<String, Integer>(); String value = ""; while (m.find()) { value = m.group(); if (count_map.get(value) != null) { count_map.put(value, count_map.get(value) + 1); } else { count_map.put(value,1); } } for (Entry<String, Integer> entry: count_map.entrySet()){ System.out.println("词性"+entry.getKey()+"的个数为"+ Integer.toString(entry.getValue())); } }}
结果:
词性\q的个数为2
词性\c的个数为1
词性\e的个数为1
词性\w的个数为2
词性\ee的个数为1
结果解释:
“\\[a-z]{1,2} 表示匹配 ‘\’符号加上后面的任意1-2个英文小写字母。
即:\字母 表示词性的话,那么这个正则就已经把所有词的词性的个数都已经筛选出来。最后再经过词性的map操作,就把所有词性的个数计算出来了。
PS:至于为什么是\\\\,文章前面已经提到
阅读全文
0 0
- 正则表达式第一弹
- 正则表达式笔记(第一弹:正则表达式基础)
- 1.2 第一个正则表达式
- 正则表达式(第一课)
- PHP中常用的正则表达式函数【第一弹】
- 读《精通正则表达式》之思维导图笔记——第一弹
- .NET平台C#与正则表达式实战第一讲:正则表达式规则
- 正则表达式个人总结(一):正则表达式语法的深入理解第一部分
- 正则表达式个人总结(一):正则表达式语法的深入理解第一部分
- 《java入门第一季》之正则表达式常见规则
- 《java入门第一季》之好玩的正则表达式
- 《java入门第一季》之正则表达式小案例
- 《java入门第一季》正则表达式小案例
- 第一个Python单线程爬虫(使用正则表达式)
- 【正则表达式】正则表达式
- 正则表达式
- 正则表达式
- 正则表达式
- 单词拆分II-LintCode
- opencv(c++)-目录
- java中的final关键字
- Python学习---10
- 5.8字符
- 正则表达式第一弹
- linux学习第二十篇:zip压缩,tar打包以及打包压缩
- PC检测到是移动端进行页面转换
- K-均值聚类算法对未标注数据分组(1)
- Cas单点登录(2)HTTPS协议
- hi3518 运用程序编译
- Java对象与内存分配
- SharePoint 入门介绍
- 3. tornado的第一个小程序