ICTCLAS函数说明

来源:互联网 发布:dw2017数据库面板插件 编辑:程序博客网 时间:2024/06/15 17:27

1.publicnative boolean ICTCLAS_Init(byte[] sPath);

参数:

sPath:最初的目录路径, Configure.xml 和Data 的存储路径

注意:ICTCLAS_Init()必须在ICTCLAS去其他操作之前调用

 

2.publicnative boolean ICTCLAS_Exit();

退出程序,释放所有资源和缓冲区

 

3.publicnative int ICTCLAS_ImportUserDictFile(byte[] sPath,int eCodeType);

导入用户自定义的数据字典,返回导入词条的数量,

参数:

sPath为用户字典的文件名

eCodeType为编码方式

 

4.publicnative int ICTCLAS_SaveTheUsrDic();

保存用户词典

1.本接口将会覆盖原有/data/文件夹用户相关词典。

2.用户可在配置文件中,指定下次是否使用该词典。

 

5.publicnative int ICTCLAS_SetPOSmap(int nPOSmap);

指定词性标注集

nPOSmap :

ICT_POS_MAP_FIRST  //计算所一级标注集

ICT_POS_MAP_SECOND //计算所二级标注集

PKU_POS_MAP_SECOND // 北大二级标注集                                       

PKU_POS_MAP_FIRST  // 北大一级标注集

 

6.publicnative boolean ICTCLAS_FileProcess(byte[] sSrcFilename,int eCodeType, int bPOSTagged,byte[] sDestFilename);

处理文本文件

sSourceFilename:源文件路径

eCodeType:源文件的字符编码类型

bPOStagged:判断是否需要词性标注,0为不标记,1为标记,默认情况下:1。

sDsnFilename:存储结果的文件名。

 

7.publicnative byte[] ICTCLAS_ParagraphProcess(byte[] sSrc, int eCodeType, intbPOSTagged);

处理一个段落,并返回结果缓冲区指针

SSRC:源段

eCodeType:字符串的字符编码类型

bPOStagged:判断是否需要词性标注,0为不标记,1为标记,默认情况下:1。

 

 

8.publicnative byte[] nativeProcAPara(byte[] sSrc, int eCodeType, int bPOStagged);

 分词,返回ICTCLAS_Result类对象对应的字节序列,需要按照一定的规则将其进行编码

将分词结果转化为stResult结构体输出


参数:

SSRC:源段落

eCodeType:资源的字符类型

bPOStagged:判断是否需要词性标注,0为不标记,1为标记,默认情况下:1

原创粉丝点击