匹配任意字符问题汇总
来源:互联网 发布:餐饮数据流程图例题 编辑:程序博客网 时间:2024/05/17 17:46
javascript
今天闲着无事写了几个增强98功能的javascript脚本,其中有一个是点击“引用”按钮不会跳转到回复页面,而是直接通过ajax调用解析回复页面,从中获得引用文本,再放到快速回复输入框里。有一个步骤是要把引用文本从回复页面的html中抽取出来,当然想到用正则表达式了。
正则表达式可以用.*匹配任意除换行之外的字符。但如果内容中包含任意多个换行怎么匹配?用.*是匹配失败的。但可以用[\s\S]*?。
例如,输入为:
This is some text
Another line
Third line
Some text here, END
Other
匹配其中的URL和TLB内容的正则表达式为:
[^"]*?)”>[\s\S]*?[^"]*?)”/>END
说明:
\S 匹配任何非空白字符
.
java
今天也碰到了这个问题,困扰我很久,最后得知,在默认的情况下,字符‘.’不包括换行符。但是可以更改此设置,让字符‘.’表示所以字符:比如:
Pattern p = Pattern.compile("regex",Pattern.DOTALL);
p.matcher(content).matches();
设置了Pattern.DOTALL后,就可以了
c#
RegexOptions.Multiline
多行模式。更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。
RegexOptions.Singleline
指定单行模式。更改点 (.) 的含义,使它与每一个字符匹配(而不是与除\n 之外的每个字符匹配)。
正则表达式的3种匹配模式
正则表达式是处理字符串的常用工具。在C#中,我们一般使用Regex类来表示一个正则表达式。一般正则表达式引擎支持以下3种匹配模式:单行模式(Singleline)、多行模式(Multiline)与忽略大小写(IgnoreCase)。
1. 单行模式(Singleline)
MSDN定义:更改点 (.) 的含义,使它与每一个字符匹配(而不是与除 \n 之外的每个字符匹配)。
使用单行模式的典型场景是获取网页源码中的信息。
示例:
我们使用WebBrowser控件,从http://www.xxx.com/1.htm上获取了如下HTML源码,它存储在变量str中:
Line 1
Line 2
我们想把div标签以及其中的内容提取出来,编写代码如下:
string pattern = @"
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!");
//结果为:Mismatch!
错误分析:
一般认为点符号(.)是匹配任意单个字符的,而(.*)就是匹配任意多个字符。但实际上点符号不能匹配换行符。在Windows中与它等效的表达式为[^\r\n]。
而我们从网站上获取的HTML源码,极少有不换行的。这时候单行模式派上用场了,它可以改变点符号的意义。修改regex实例的构造函数,用RegexOptions.Singleline来声明使用单行模式:
string pattern = @"
Regex regex = new Regex(pattern, RegexOptions.Singleline);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!"); .
单行模式的嵌入修饰符:
我们可以直接在正则表达式中嵌入单行模式:
(?s)
(?s)修饰符说明,其后面的表达式采用单行模式。所以使用时请不要将它放在末尾。另外可以使用(?-s)关闭单行模式。
注意:嵌入模式的优先级要高于Regex类的RegexOptions设置,所以使用了(?s)后,无论是否使用RegexOptions.Singleline,均按照单行模式解析。
2. 多行模式(Multiline)
MSDN定义:更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。
示例:
有一个文本文件,它的每一行是一个用户名,将文件读入变量str中进行处理。其内容如下:
二十四画生
TerryLee
莫相会
Dflying Chen
Rainy
借用博客园各位前辈的大名:)
我们想找出一个使用英文字母开头的用户名,编写代码如下: .
string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!"); .
//结果为:Mismatch!
错误分析:
(^)是字符串的起始锚定,str的第一个字符是一个中文字,所以匹配不上。我们就可以使用多行模式来改变(^)的含义,使它匹配每一行的起始,而不是整个字符串的起始。
更改代码如下:
string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!"); .com
//结果为:TerryLee
同时,多行模式也会改变($)的含义,使它匹配每一行的结尾,而不是整个字符串的结尾。
与(^)和($)不同的是,(\A)和(\Z)并不受多行模式的影响,永远匹配整个字符串的起始和结尾。
多行模式的嵌入修饰符:(?m)与(?-m)
3. 忽略大小写(IgnoreCase)
MSDN定义:指定不区分大小写的匹配。
这个模式很容易理解,它认为大小写字符是相同的。我们仍以上例来说明。
示例:
string pattern = @"^[a-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline |RegexOptions.IgnoreCase);
if (regex.IsMatch(str))
Console.WriteLine(regex.Match(str).Value);
else
Console.WriteLine("Mismatch!");
//结果为:TerryLee
分析:请注意这次使用的正则表达式,我们并没有写入大写字母,但却匹配了以大写字母开头的名字,这就是忽略大小写的效果。
忽略大小写的嵌入修饰符:(?i)与(?-i)
总结:
最后我们用一个表格来总结一下这三个模式
单行模式
多行模式
忽略大小写
- 匹配任意字符问题汇总
- python3 匹配任意字符
- 正则表达式匹配任意字符
- 正则表达式:匹配任意字符
- 正则表达式匹配任意字符
- 正则表达式匹配任意字符
- "\\s+"匹配任意空白字符
- 正则表达式匹配任意字符
- 正则表达式匹配任意字符
- 正则表达式匹配任意字符
- 关于正则表达式匹配任意字符
- 关于正则表达式匹配任意字符
- C#正则表达式匹配任意字符
- 实现正则表达式匹配任意字符
- 正则表达式 匹配任意长度的字符
- java匹配任意字符的正则表达式
- Match Any Character (匹配任意字符)
- Mysql中下划线表示匹配任意字符
- jquery ajax请求返回xm…
- R语言常用函数参考
- 网络知识大普及-hxxjmr
- 用花生壳、tomcat、个人电脑架设起…
- of的用法!
- 匹配任意字符问题汇总
- P-value
- Java--日期的使用
- R引入其他统计软件数据的扩…
- indent格式化C代码
- 免费的天气预报webservice接口
- java版的memcached client及…
- ibatis基础上添加memcached缓存
- 二分图的最大权匹配