Libscws - C API文档
来源:互联网 发布:云计算技术与应用大赛 编辑:程序博客网 时间:2024/06/05 01:20
数据类型:
1. scws_t scws操作句柄(指针),大多数 API 的第一参数类型,通过 scws_new()
返回,不要尝试拷贝 struct scws_st
数据,拷贝结果不保证可以正确工作。
typedef struct scws_st {
struct scws_st *p;
xdict_t d; // 词典指针,可检测是否为 NULL 来判断是否加载成功
rule_t r; // 规则集指针,可检测是否为 NULL 来判断是否加载成功
unsignedchar *mblen;
unsignedint mode;
unsignedchar *txt;
int len;
int off;
int wend;
scws_res_t res0; // scws_res_t 解释见后面
scws_res_t res1;
word_t **wmap;
struct scws_zchar *zmap;
} scws_st, *scws_t;
2. scws_res_t scws分词结果集,单链表结构,通过 scws_get_result()
返回,每次分词返回的结果集次数是不定的,须循环调用直到返回 NULL
。
typedefstruct scws_result *scws_res_t;
struct scws_result {
int off; // 该词在原文本中的偏移
float idf;// 该词的 idf值
unsignedchar len;// 该词的长度
char attr[3];// 词性
scws_res_t next;// 下一个词
};
3. scws_top_t 高频关键词统计集,简称“词表集”,这是 scws 中统计调用时返回的结构,也是一个单链表结构。
typedef struct scws_topword *scws_top_t;
struct scws_topword
{
char *word; // 词的字符串指针
float weight; // 统计权重
short times; // 出现次数
char attr[2];// 词性,注意只有2字节,不保证 ’\0‘ 结尾
scws_top_t next;// 下一个
};
函数详解
1. scws_t scws_new()
分配或初始化与 scws系列操作的 scws_st
对象。该函数将自动分配、初始化、并返回新对象的指针。只能通过调用 scws_free()
来释放该对象。
返回值 初始化的 scws_st *(即 scws_t)句柄。
错误 在内存不足的情况下,返回NULL。
2. scws_t scws_fork(scws_t p)
在已有 scws对象上产生一个分支,可以独立用于某个线程分词,但它继承并共享父对象词典、规则集资源。同样需要调用 scws_free()
来释放对象。在该分支对象上重设词典、规则集不会影响父对象及其它分支。
参数 p 现有的 scws对象(也可以是分支)
返回值 克隆出来的分支 scws_st * (scws_t)句柄。
错误 在内存不足的情况下,返回NULL。
注意 主要用于多线程环境,以便共享内存词典、规则集。在 v1.2.0及以前,分支对象设置词典规则集会影响到原对象及其它兄弟分支。
3. void scws_free(scws_t s)
释放 scws操作句柄及对象内容,同时也会释放已经加载的词典和规则。
4. void scws_set_charset(scws_t s, const char *cs)
设定当前 scws 所使用的字符集。
参数 cs 新指定的字符集。若无此调用则系统缺省使用 gbk,还支持 utf8,指定字符集时参数的大小写不敏感。
错误 若指定的字符集不存在,则会自动使用 gbk字符集替代。
5. int scws_add_dict(scws_t s, const char *fpath,int mode)
添加词典文件到当前 scws 对象。
参数 fpath 词典的文件路径,词典格式是 XDB或TXT格式。
参数 mode 有3种值,分别为预定义的:
o SCWS_XDICT_TXT表示要读取的词典文件是文本格式,可以和后2项结合用
o SCWS_XDICT_XDB表示直接读取 xdb 文件
o SCWS_XDICT_MEM表示将 xdb文件全部加载到内存中,以 XTree结构存放,可用异或结合另外2个使用。
具体用哪种方式需要根据自己的实际应用来决定。当使用本库做为守护进程时推荐使用 mem方式,当只是嵌入调用时应该使用 xdb方式,将 xdb 文件加载进内存不仅占用了比较多的内存,而且也需要一定的时间(35万条数据约需要0.3~0.5秒左右)。
返回值 成功返回 0,失败返回 -1。
注意 若此前 scws句柄已经加载过词典,则新加入的词典具有更高的优先权。
6. int scws_set_dict(scws_t s, const char *fpath,int mode)
清除并设定当前 scws 操作所有的词典文件。
参数 fpath 词典的文件路径,词典格式是 XDB或TXT格式。
参数 mode 有3种值,参见 scws_add_dict
。
返回值 成功返回 0,失败返回 -1。
注意 若此前 scws句柄已经加载过词典,则此调用会先释放已经加载的全部词典。和 scws_add_dict
的区别在于会覆盖已有词典。
7. void scws_set_rule(scws_t s, const char *fpath)
设定规则集文件。
参数 fpath 规则集文件的路径。若此前 scws句柄已经加载过规则集,则此调用会先释放已经加载的规则集。
错误 加载失败,scws_t结构中的 r 元素为 NULL,即通过 s->r == NULL与否来判断加载的失败与成功。
注意 规则集定义了一些新词自动识别规则,包括常见的人名、地区、数字年代等。规则编写方法另行参考其它部分。
8. void scws_set_ignore(scws_t s, int yes)
设定分词结果是否忽略所有的标点等特殊符号(不会忽略\r和\n)。
参数 yes 1表示忽略,0 表示不忽略,缺省情况为不忽略。
9. void scws_set_multi(scws_t s, int mode)
设定分词执行时是否执行针对长词复合切分。(例:“中国人”分为“中国”、“人”、“中国人”)。
参数 mode 复合分词法的级别,缺省不复合分词。取值由下面几个常量异或组合:
o SCWS_MULTI_SHORT短词
o SCWS_MULTI_DUALITY二元(将相邻的2个单字组合成一个词)
o SCWS_MULTI_ZMAIN重要单字
o SCWS_MULTI_ZALL全部单字
10. void scws_set_duality(scws_t s, int yes)
设定是否将闲散文字自动以二字分词法聚合。
参数 yes 如果为 1表示执行二分聚合,0 表示不处理,缺省为 0。
11. void scws_set_debug(scws_t s, int yes)
设定分词时对于疑难多路径综合分词时,是否打印出各条路径的情况。
注意 打印使用的是 fprintf(stderr,...)
故不要随便用,并且只有编译时加入--enable-debug选项才有效。
12. void scws_send_text(scws_t s, const char *text,int len)
设定要切分的文本数据。
参数 text 文本字符串指针。
参数 len 文本的长度。
注意 该函数可安全用于二进制数据,不会因为字符串中包括 \0而停止切分。这个函数应在 scws_get_result()
和 scws_get_tops()
之前调用。
scws 结构内部维护着该字符串的指针和相应的偏移及长度,连续调用后会覆盖之前的设定;故不应在多次的scws_get_result循环中再调用scws_send_text()以免出错。
13. scws_res_t scws_get_result(scws_t s)
取回一系列分词结果集。
返回值 结果集链表的头部指针,该函数必须循环调用,当返回值为 NULL时才表示分词结束。
注意 该分词结果必须调用 scws_free_result()
释放,参数为返回的链表头指针。
14. void scws_free_result(scws_res_t result)
根据结果集的链表头释放结果集。
15. scws_top_t scws_get_tops(scws_t s, int limit,char *xattr)
返回指定的关键词表统计集,系统会自动根据词语出现的次数及其 idf 值计算排名。
参数 limit 指定取回数据的最大条数,若传入值为0或负数,则自动重设为10。
参数 xattr 用来描述要排除或参与的统计词汇词性,多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性,否则表示必须包含,传入 NULL 表示统计全部词性。
返回值 词表集链表的头指针,该词表集必须调用 scws_free_tops()
释放。
16. void scws_free_tops(scws_top_t tops)
根据词表集的链表头释放词表集。
17. int scws_has_word(scws_t s, char *xattr)
判断text中是包括指定的词性的词汇。
参数 xattr 用来描述要排除或参与的统计词汇词性,多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性,否则表示必须包含,传入 NULL 表示统计全部词性。
返回值 如果有返回 1没有则返回 0。
18. scws_top_t scws_get_words(scws_t s, char*xattr)
返回指定词性的关键词表,系统会根据词语出现的先后插入列表。
参数 xattr 用来描述要排除或参与的统计词汇词性,多个词性之间用逗号隔开。当以~开头时表示统计结果中不包含这些词性,否则表示必须包含,传入 NULL 表示统计全部词性。
返回值 返回词表集链表的头指针,该词表集必须调用 scws_free_tops()
释放。
- Libscws - C API文档
- Libscws C API 使用说明
- clearsilver-C-API文档(HDF部分)
- TA-Lib C/C++ API文档
- API文档
- API文档
- 文档API
- API文档
- API文档
- API 文档
- C 语言字符串操作函数API文档说明
- 详解Node.js API系列C/C++ Addons(1) API文档
- 【转】libscws(简体中文分词库)
- javadoc 制作api文档
- Java API文档中文版
- Java 常用API文档
- Javadoc生成API文档
- Java API文档中文版
- setfacl实验
- Sublime中输入中文的解决方案
- 二叉堆 hdu 4006
- 三大框架总结
- 【UI】GDI+绘制界面基本分析
- Libscws - C API文档
- 网络编程之 Socket的模式(三) --- “Window网络I/O模型”
- SICP学习笔记(一)
- 最好用的 JetBrains C++ IDE 即将发布
- 去掉eclipse的xml和js验证
- [C++学习历程]基础部分 C++中的函数中的值参数、地址参数、引用参数实际例子
- 十道海量数据处理面试题与十个方法大总结
- zoj 2059 The Twin Towers(DP)
- 网络编程之 Socket的模式(四) --- “Window网络I/O模型” 续