利用正则表达式匹配标点问题

来源：互联网发布：手机 ipv6网络电视编辑：程序博客网时间：2024/06/04 20:03

做了一个任务，将每个描述中除了中文，拼音和数字中的其他符号找出来。查找资料后发现利用正则表达式做这个问题

我写了一个方法和测试的例子如下：

package com.temaiba;import java.util.regex.Matcher;import java.util.regex.Pattern;public class Sign {public static String replaceSign (String text ){for(int i=0;i<text.length();i++){//利用正则表达式解决问题Pattern pattern = Pattern.compile("[\\pP\\pS‘’“”]");  Matcher matcher = pattern.matcher(text);  if (matcher.find()) {String sign=matcher.group(0);//发现符号用空格代替text=text.replace(sign, " ");}}return text; }public static void main(String[] args){String text="【亚运村】￥仅80元！享价值%108元中奥凯富酒(店自助餐&厅午#餐1位！寒冬时节，北京中奥凯富国际酒店自2013年11月1日至2014年1月31日在现有中西式自助餐基础上新推出“缤纷火锅季”，各式美味锅底以及丰盛菜品，定能令您在享用美食的同时感受来自冬日的温暖！另有晚餐可选！";System.out.println(Sign.replaceSign(text));}}

输出结果为

亚运村仅80元享价值 108元中奥凯富酒店自助餐厅午餐1位寒冬时节北京中奥凯富国际酒店自2013年11月1日至2014年1月31日在现有中西式自助餐基础上新推出缤纷火锅季各式美味锅底以及丰盛菜品定能令您在享用美食的同时感受来自冬日的温暖另有晚餐可选

参考的文件是在网上找到的如下

str = str.replaceAll("[\\pP‘’“”]", "");

Unicode 编码并不只是为某个字符简单定义了一个编码，而且还将其进行了归类。

\pP 其中的小写 p 是 property 的意思，表示 Unicode 属性，用于 Unicode 正表达式的前缀。

大写 P 表示 Unicode 字符集七个字符属性之一：标点字符。

其他六个是

L：字母；
M：标记符号（一般不会单独出现）；
Z：分隔符（比如空格、换行等）；
S：符号（比如数学符号、货币符号等）；
N：数字（比如阿拉伯数字、罗马数字等）；
C：其他字符

上面这七个是属性，七个属性下还有若干个子属性，用于更进一步地进行细分。

Java 中用于 Unicode 的正则表达式数据都是由 Unicode 组织提供的。

Unicode 正则表达式标准（可以找到所有的子属性）
http://www.unicode.org/reports/tr18/

各 Unicode 字符属性的定义，可以用一看看某个字符具有什么属性。
http://www.unicode.org/Public/UNIDATA/UnicodeData.txt

这个文本文档一行是一个字符，第一列是 Unicode 编码，第二列是字符名，第三列是 Unicode 属性，
以及其他一些字符信息。

例子：
原句子：这只是个测试句子？！@#1…2…3…4…5￥6#7@8！，。、,./9！0
去除句子中所有标点后输出：这只是个测试句子12345￥67890
用途：一般统计段落字符数的时候比较好用，去除所有标点符号，取字节数或者字符数
public static void main(String[] args) {
String str = "这只是个测试句子？！@#1…2…3…4…5￥6#7@8！，。、,./9！0";
str = str.replaceAll("[\\pP‘’“”]", "");
System.out.println(str);
}

0 0