干货| 针对实际数据做机器学习的相关处理

来源:互联网 发布:adobeair是什么软件 编辑:程序博客网 时间:2024/04/30 18:40

1.首先是数据样本问题

       实际上在教学中,构建分类器时,样本类都是平衡的——也就是说,每个类中的样本数量是大致相同的。数据库通常是净化过的,这样老师才能够把注意力集中在教授特定算法或技巧上,而不被其它问题干扰。

      但是在实际真是生活中,数据样本参差不齐,不会平衡,存在大量的误差甚至错误点,导致不平衡。

       解决可以使用过采样和欠采样,待续。。。。。。

1 0