SPARK+ANSJ 中文分词基本操作
来源:互联网 发布:1加到100的c语言程序 编辑:程序博客网 时间:2024/06/08 12:56
ANSJ 5.0.2
这是一个基于n-Gram+CRF+HMM的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
下载地址 :http://maven.nlpcn.org/org/ansj/
ansj_seg-5.0.2-all-in-one.jar
单个添加词典
import org.ansj.library.UserDefineLibrary
UserDefineLibrary.insertWord("艾泽拉斯","n",10) //参数(自定义词,词性,词频)println(parse)import org.ansj.splitWord.analysis.{BaseAnalysis, NlpAnalysis, ToAnalysis}//基础分词
val parse = BaseAnalysis.parse("我在艾泽拉斯")
[我/r, 在/p, 艾/nr, 泽/ag, 拉/v, 斯/rg]
基础分词不支持用户自定义词典,所以不发生改变
//精准分词
val parse1 = ToAnalysis.parse("我在艾泽拉斯")
println(parse1)
[我/r, 在/p, 艾泽拉斯/n]
//NLP分词
val parse2 = NlpAnalysis.parse("我在艾泽拉斯")
println(parse2)
[我/r, 在/p, 艾泽拉斯/n]
单个移除词典
UserDefineLibrary.removeWord("艾泽拉斯")val parse3 = ToAnalysis.parse("我在艾泽拉斯")println(parse3)[我/r, 在/p, 艾泽拉/nr, 斯/rg]
加载自定义词库
import org.ansj.library.UserDefineLibrary词库格式("自动义词"[tab]键"词性"[tab]键"词频")去停用词UserDefineLibrary.loadLibrary(UserDefineLibrary.FOREST,"/home/spark/opt/hadoop-2.7/bin/address2.dic")艾泽拉斯 n 1000第一个参数直接默认为第二个参数词库路径UserDefineLibrary.FOREST
address2.dic 格式
雷霆图腾 n 1000
至高岭 n 1000[我/r, 在/p, 艾泽拉斯/n, 至高岭/n, 雷霆图腾/n]println(ToAnalysis.parse("我在艾泽拉斯至高岭雷霆图腾"))
import org.ansj.recognition.impl.FilterRecognition1.根据自定义词去停用词val filter = new FilterRecognition()val stopWord = "冠军"val str = "湖人获得了冠军"filter.insertStopWord(stopWord)
val parse4 = ToAnalysis.parse(str).recognition(filter)
println(parse4)
湖/n,人/n,获得/v,了/ul
2.根据词性去停用词
val filter1 = new FilterRecognition()
filter1.insertStopNatures("n")val str = "湖人获得了冠军"val parse5 = ToAnalysis.parse(str).recognition(filter)
获得/v,了/ul
3.根据正则表达式去停用词
val filter2 = new FilterRecognition()
filter2.insertStopRegex(Regex)//正则表达式
0 0
- SPARK+ANSJ 中文分词基本操作
- spark + ansj 对大数据量中文进行分词
- Spark + ansj 对大数据量中文进行分词
- spark + ansj 对大数据量中文进行分词
- Ansj中文分词说明
- ANSJ中文分词使用方法
- Ansj中文分词说明
- spark scala 用ansj分词
- Java中文分词器Ansj
- Ansj中文分词的使用
- ansj中文分词分词过程浅析
- 使用Spark、Ansj分词进行词频统计
- 开源 Java 中文分词器 Ansj
- [023]中文分词——ansj
- Java中文分词器Ansj的使用
- Ansj中文分词Java开发小记
- elasticsearch2.3.1集成ansj中文分词
- solr6使用ansj做中文分词
- 水漫金山:OpenCV漫水填充算法(Floodfill)
- java读取csv文件并将其转成json
- 数据结构期末总结
- W77E516机器周期与时钟周期
- OC与JS的互调
- SPARK+ANSJ 中文分词基本操作
- jquery层级选择器
- 第十五周项目1-(1)-验证哈希表实施查找的相关算法
- 【VSCode】Windows下VSCode编译调试c/c++
- 女孩子:现代的“三从四德”
- 如何保存EDIUS工程里面的素材
- 【Linux】fork()
- 创建ITS mobile 应用程序步骤
- Spring Boot 添加JSP支持