数据处理

来源:互联网 发布:三国群英传mac版 编辑:程序博客网 时间:2024/05/01 20:10

1,提升分类准确率

1) 装袋:

书上给的例子是投票, 也就是 某个分类结果被越多的分类模型所认同(得出), 那么这个结果可以认为是正确的划分类。

具体是: 由不同的训练集得出不同的分类模型, 将未知数X 分类, 统计分类模型得出的结果,票数最高的为最后的划分类。即 多数表决

2)提升:

总的思想是: 

1、给每个训练组赋予一个误分类的权值(表示分类难度?), 对于误分类率高的训练组进行多次训练(做难题所能获取的知识通常要比做简单题的还要多)。

2、对于不同分类模型,根据其错误率高低 分配一个权值,对于其表决结果乘上其权值再进行决策

3)提高类不平衡数据的分类准确率:

在某些问题,由于我们感兴趣的主类(正类)的元组少于其他类(负类),比如被欺诈的人的个数确实要远低于正常的个数的。这个时候我们采用一下方法:

1、过抽样: 复制正类元组,直到与负类达到一定比例

2、欠抽样: 减少负类元组,直到与正类达到一定比例

3、阈值移动: 设置一个阈值t  对于f(X) >= t 的元组视为正类的, 其他元组视为负类

0 0