Java删除/清除/过滤标点(所有中英文标点)的正则表达式
来源:互联网 发布:linux svn 验证 编辑:程序博客网 时间:2024/05/17 02:58
转自:http://blog.csdn.net/harryhuang1990/article/details/11888293
在进行文本分析的时候我们经常需要过滤掉停用词,标点等,本文给大家介绍一下如何识别并删除文本中的所有标点符号。下面是三个可行的正则表达式方案,童鞋们来试试吧^_^
在进行文本分析的时候我们经常需要过滤掉停用词,标点等,本文给大家介绍一下如何识别并删除文本中的所有标点符号。下面是三个可行的正则表达式方案,童鞋们来试试吧^_^
(1)不能完全清楚所有标点,(2)和(3)等价都能完全清楚标点(中文和英文都能清除)
需要注意的是,还是存在一些系统不认为是标点的半角和全角符号无法清除,如下所示:
修改后:
注意一下, JDK 5 或以下的环境中不支持全角单引号对、双引号替换。在 JDK 6 中由于加入了Pi 和 Pf 两个 Unicode 子属性,因此就能替换掉。
在 JDK 6 以下的版本中可以这样:
0 0
- Java删除/清除/过滤标点(所有中英文标点)的正则表达式
- 删除/清除/过滤标点(所有中英文标点)的正则表达式——Desktop Search开发笔记【经验积累】
- Java 简单高效处理字符串-删除所有标点,正则表达式
- java正则替换标点
- java正则替换标点
- Java:判断中英文符号、标点
- 【python2】正则表达式-中文标点
- Java 简单高效处理字符串-删除所有标点
- 标点结尾识别,正则表达式的正确写法
- 正则表达式按标点截取一定长度的中文内容
- 标点
- sql语句中英文标点
- 判断中英文符号、标点
- 利用正则表达式匹配标点问题
- 过滤中文标点
- PPLable 过滤标点方法
- 关于boost的regex库和xpressive库匹配所有标点(含中文标点)的方法
- Word中批量进行中英文标点的转换
- 实时刷新 fis3 --无名小码农
- 【QT5】官方打包发布方法-windeployqt
- mapper文件常遇到的问题汇总
- DNS原理总结及其解析过程详解
- hdoj 5100 Chessboard (思维规律)
- Java删除/清除/过滤标点(所有中英文标点)的正则表达式
- 大数据时代:十大最热门的大数据技术
- JZOJ4726【NOIP2016提高A组模拟8.22】种花 增加改错机制的后贪心
- 高速SSH连接器MobaXterm使用 (windows版本)
- 357. Count Numbers with Unique Digits
- Xamarin.Forms中获取屏幕宽度
- [转]Java中HashMap遍历的两种方式
- jenkins配置基于角色的项目权限管理设置步骤
- The APK file does not exist on disk.Error while Installing APK