libsvm 多分类遇到的问题

来源:互联网 发布:openwrt 修改mac 编辑:程序博客网 时间:2024/05/19 12:35

现在已经完全正确的调用了libsvm,我所处理的问题是利用libsvm进行文本分类


1 首先利用CHI进行特征提取

2  利用TFIDF进行权重提取

3  把文章组织成libsvm可以识别的格式



4  利用上面的三个步骤,就可以把数据传入libsvm进行训练,但是训练之前,还要进行参数调优,得到最好的c和g

5  参数调优的过程就是利用  python grid.py heart_scale  这个命令,具体配置过程网上已有很多教程

6  利用最有参数进行训练,然后就会生成一个model,随后就可以进行预测了。

7  利用上面的过程,在开放测试集上libsvm在我所用的数据集上对于二分类问题准确率和召回率都在81.5%左右,但是在多分类(11分类)中,准确率和召回率只有20%左右


8  经过研究发现,libsvm利用one aginst one 进行多分类的,这样就会有k*(k-1)/2 个分类器,但是libsvm只有一个参数c和g的设置,这样对于每个分类器,是不是不能找到最好的      参数?  是不是因为这个影响了分类的效率?

9  libsvm进行多分类的策略是不是可以改变?我还没有发现接口函数

10  我是想在外部模拟实现one-aginst-one,对于每个分类器都调用正确的c和g参数,但是这样的代价就太大了,要训练很多的分类器?


好多问题得不到解决啊。。

原创粉丝点击