THUCLC笔记

来源:互联网 发布:用来码字的软件 编辑:程序博客网 时间:2024/06/13 03:13
THUCLC是清华的一个Java版本的文本分类器。
分类使用的是LibLinear软件包,LibLinear和LibSVM相似,但是前者更擅长大量数据的处理。
用来训练的是一些文本,压缩后大小为3.6GB。
我是想看里面的特征提取,THUCLC的特征是:词 + tfidf。其中tfidf缩放在【0, 1】区间内。
大致就了解了这些。明天再详细看看。
0 0