java 正则去除中文标点符号
来源:互联网 发布:php reflection的作用 编辑:程序博客网 时间:2024/06/03 09:26
在作文本分析,尤其是分词的时候,我们需要把不需要的标点符号去除,防止在词转向量的时候,把中文符号添加进去。
"[\\pP+~$`^=|<>~`$^+=|<>¥×]""[\\p{P}+~$`^=|<>~`$^+=|<>¥×]"
我使用的是ansj分词器,其5.x版本有提供Recognition接口,用于在分词的时候剔除不需要的,比如剔除停用词、标点符号,根据词性剔除一批词,也支持正则表达式,很强大。
我只写了demo:
JSONObject jsonObject = JSONObject.parseObject(ss); String content = jsonObject.getString("content"); FilterRecognition filterRecognition = new FilterRecognition(); filterRecognition.insertStopNatures("m","w"); filterRecognition.insertStopRegex("[\\pP+~$`^=|<>~`$^+=|<>¥×]"); filterRecognition.insertStopRegex("•"); Result parse = NlpAnalysis.parse(content.replaceAll("\\s+","")).recognition(filterRecognition); Set<String> str = new HashSet<String>();
阅读全文
0 0
- java 正则去除中文标点符号
- java 正则表达式去除标点符号
- java 正则表达式去除标点符号
- java 正则表达式去除标点符号
- Java正则去除文本中的标点符号
- java 去除空格、标点符号
- js正则匹配中文标点符号
- 怎样用正则表达式去除文本中的标点符号
- 用正则表达式去除文本中的标点符号
- 怎样用正则表达式去除文本中的标点符号
- 怎样用正则表达式去除文本中的标点符号
- 怎样用正则表达式去除文本中的标点符号
- java正则表达式验证标点符号
- java正则表达式去掉标点符号
- java字符串去除所有的标点符号
- Oracle正则表达式中文标点符号的问题
- 去除字符串中的所有标点符号以及空格(正则表达式)
- 中文字符及其中文标点符号正则表达式匹配
- 安卓Activity详解(生命周期-以各种方式启动Activity-状态保存-完全退出)
- Several ports (8005, 8080, 8009) required解决办法
- hdu5152.Friend-Graph(CCPC网络赛)
- Mysql5.6升级到5.7步骤详解
- mac本地搭建伪分布式Hadoop和HBase遇到的问题
- java 正则去除中文标点符号
- LeetCode 26: Remove Duplicates from Sorted Array
- HDU2063--过山车(二分匹配,二分图)
- ccpc预选赛-1005CaoHaha's staff
- typedef 和 define 的用法
- 线程同步的三种方法(Java 并发编程 concurrent包复习)
- Asp.Net core上传文件代码
- GIT和SVN比较
- Android中的子线程和服务的使用