THUCLC笔记
来源:互联网 发布:用来码字的软件 编辑:程序博客网 时间:2024/06/13 03:13
THUCLC是清华的一个Java版本的文本分类器。
分类使用的是LibLinear软件包,LibLinear和LibSVM相似,但是前者更擅长大量数据的处理。
用来训练的是一些文本,压缩后大小为3.6GB。
我是想看里面的特征提取,THUCLC的特征是:词 + tfidf。其中tfidf缩放在【0, 1】区间内。
大致就了解了这些。明天再详细看看。
0 0
- THUCLC笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- 笔记
- HTTP、TCP/IP协议与Socket之间的区别
- Ubuntu14.04安装Linux源码
- 《杂文》 -- 说做就做,现在开始
- poj1745 递推
- Xinyu Zhang - Department of Electrical and Computer Engineering University of Wisconsin-Madison
- THUCLC笔记
- android 各种设置1
- 配置表的判定写法.
- 返回JSON数据,懒加载异常的处理
- java中关于拓展赋值运算符的注意事项!!
- 生产者消费者模型
- c++虚函数表解析
- 利用CSS、JavaScript及Ajax实现图片预加载的三大方法
- Win下solr5.3的下载/启动/基本配置