libsvm 多分类遇到的问题

来源：互联网发布：openwrt 修改mac 编辑：程序博客网时间：2024/05/19 12:35

现在已经完全正确的调用了libsvm，我所处理的问题是利用libsvm进行文本分类

1 首先利用CHI进行特征提取

2 利用TFIDF进行权重提取

3 把文章组织成libsvm可以识别的格式

4 利用上面的三个步骤，就可以把数据传入libsvm进行训练，但是训练之前，还要进行参数调优，得到最好的c和g

5 参数调优的过程就是利用 python grid.py heart_scale 这个命令，具体配置过程网上已有很多教程

6 利用最有参数进行训练，然后就会生成一个model，随后就可以进行预测了。

7 利用上面的过程，在开放测试集上libsvm在我所用的数据集上对于二分类问题准确率和召回率都在81.5%左右，但是在多分类（11分类）中，准确率和召回率只有20%左右

8 经过研究发现，libsvm利用one aginst one 进行多分类的，这样就会有k*(k-1)/2 个分类器，但是libsvm只有一个参数c和g的设置，这样对于每个分类器，是不是不能找到最好的参数？是不是因为这个影响了分类的效率？

9 libsvm进行多分类的策略是不是可以改变？我还没有发现接口函数

10 我是想在外部模拟实现one-aginst-one，对于每个分类器都调用正确的c和g参数，但是这样的代价就太大了，要训练很多的分类器？

好多问题得不到解决啊。。