用中科院ICTCLAS2015分词器的java接口

来源:互联网 发布:域名别名设置 编辑:程序博客网 时间:2024/04/29 18:38

要做中文文本的分类  自然首要步骤就是分词(切词)咯  就用了中科院这个分词工具 一开始下了这个工具 看了说明文档也各种迷茫 各种查各种问后  得到如下调用ICTCLAS2015分词器的java接口的方法

另附:还有一个同学写的方法 http://blog.csdn.net/blockheadls/article/details/49737599#userconsent#


1、在ICTCLAS的官网上下载整个分词器的包,下载链接:http://ictclas.nlpir.org/downloads

2、下载解压后  将G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\sample\JnaTest_NLPIR作为一个工程 导入到eclipse 导入后工程名字为 JnaTest_V1

3、导入后 按照  \JnaTest_NLPIR目录下的 readme.txt 将 G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\Data 拖拽放到 工程JnaTest_V1下

4、ICTCLAS2015提供的java接口用的是jna 就是调用C或C++ 程序的java集成包  所以在该工程中有一个属性文件 nlpir.properties 利用.properties属性文件寻找NLPIR.dll的动态链接库文件和Data目录。Data的路径 就改为之前被拖拽到的路径 可以通过右击Data文件 查看他的属性得到,NLPIR.dll由ICTCLAS提供的有  在它的支持文件里 G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\lib\win64  我的机子是win64  所以NLPIR.dll就在这个路径下 故将 nlpir.properties 中的dll路径改为G:\我的文件\硕士课程\数据挖掘\FenCi\ICTCLAS2015\lib\win64\NLPIR.dll

5、将NlpirTest.java中14行 CLibrary Instance = (CLibrary) Native.loadLibrary(
"G://我的文件//硕士课程//数据挖掘//FenCi//ICTCLAS2015//lib//win64//NLPIR", CLibrary.class); 中的路径 改为你NLPIR.dll所在的路径

6、特别注意  NlpirTest.java中28行 String argu = "D:\\NLPIR"; 将它改为 String argu = "";因为它是下面初始化函数中 Data 路径 的参数 所以要制空 因为我们的Data 放在工程的同目录下

噢啦  到此 就搞完了 就可以运行了 

运行结果 :

分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求/v 美方/n 加强/v 对/p 输/v 华/b 玉米/n 的/ude1 产地/n 来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n ,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n 污染/vn 。/wj 
增加用户词典后分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求美方加强对输/n 华玉米的产地来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n ,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n 污染/vn 。/wj 
删除用户词典后分词结果为: 据悉/v ,/wd 质检/vn 总局/n 已/d 将/d 最新/a 有关/vn 情况/n 再次/d 通报/v 美方/n ,/wd 要求/v 美方/n 加强/v 对/p 输/v 华玉米的产地来源/n 、/wn 运输/vn 及/cc 仓储/vn 等/udeng 环节/n 的/ude1 管/v 控/v 措施/n ,/wd 有效/ad 避免/v 输/v 华/b 玉米/n 被/pbei 未经/d 我国/n 农业部/nt 安全/an 评估/vn 并/cc 批准/v 的/ude1 转基因/n 品系/n 污染/vn 。/wj 
关键词提取结果是:华玉米的产地来源#农业部#有关#污染#关键词提取结果是:

0 0
原创粉丝点击