中科院分词ICTCLAS汉语分词系统简单配置
来源:互联网 发布:矩阵特征分解证明 编辑:程序博客网 时间:2024/05/29 20:01
下面是它的可视化界面:
该分词系统是开源的,可以供多种程序语言API进行调用 ,下面介绍一个java调用方法:
首先,下载java相应的win平台下的api,网址:http://ictclas.org/ictclas_feedback.aspx?packetid=50&packeturl=down/50/ICTCLAS50_Windows_32_JNI.rar
然后,解压打开API文件夹,里面共有8个文件
新建一个java项目,除ICTCLAS文件夹外,所有的文件均拷到java项目的根目录下,ICTCLAS文件夹整个拷到java项目中的src文件夹中,以供调用,如下:
下面是给出的测试代码:
package tokenization;
import ICTCLAS.I3S.AC.ICTCLAS50;
public class test {
public static void main(String[] args)
{
ICTCLAS50 testICTCLAS50 = new ICTCLAS50();
try
{
//分词所需库的路径
String argu = ".";
//初始化
if (testICTCLAS50.ICTCLAS_Init(argu.getBytes("GB2312")) == false){
System.out.println("Init Fail!");
return;
}
else {
System.out.println("Init Succeed!");
}
String sInput="点击下载超女纪敏佳深受观众喜爱。禽流感爆发在非典之后。";
byte nativeBytes[] = testICTCLAS50.ICTCLAS_ParagraphProcess(sInput.getBytes("GB2312"), 0, 1);
System.out.println(nativeBytes.length);
String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312");
System.out.println("The result is :" + nativeStr);
testICTCLAS50.ICTCLAS_Exit();
}
catch (Exception ex)
{
}
finally{
}
}
}
结果如下:
标签: 中科院分词 Tokenization java ICTCLAS 汉语分词
- 中科院分词ICTCLAS汉语分词系统简单配置
- 中科院分词ICTCLAS汉语分词系统简单配置
- NLPIR/ICTCLAS汉语分词系统2015配置
- 中科院ICTCLAS分词汉语词性标记集
- 中科院分词包ICTCLAS
- java中科院分词配置(ICTCLAS) 转
- ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
- ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
- 让中科院中文分词系统ICTCLAS为lucene所用的简单程序(C#版)
- 让中科院中文分词系统ICTCLAS为lucene所用的简单程序(C#版)
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- JAVA WEB 中添加中科院分词系统ICTCLAS
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 如何使用中科院分词系统(ICTCLAS 5.0)Java版
- 智能语言-中科院分词系统ICTCLAS(NLPIR)
- ICTCLAS分词系统
- fedora 16 install xgcom
- 哲理故事与管理之道(9)-善用员工的缺陷
- 哲理故事与管理之道(10)-你还在崇拜交付速度吗?
- cmp指令
- (超好)xp系统遇到问题解决方法总结(提供了一个解决问题库)
- 中科院分词ICTCLAS汉语分词系统简单配置
- 警示自己-算是为了提升自己的内涵 .
- C语言程序100例之C#版-027
- 【js与jquery】jquery之放大镜插件源码分析
- C++ Primer 笔记 第二章
- 12 Interesting C Interview Questions and Answers
- C++ Primer 笔记 第三章
- 程序级的全局变量
- 原来R可以被java调用