学数据挖掘就要懂数据

来源：互联网发布：2014年好听的网络歌曲编辑：程序博客网时间：2024/05/22 14:43

     机器的学习的主要问题就是分类和回归问题，分类也可以看成是离散值的回归问题。训练器是基于训练集训练出一个回归函数，通过此回归函数用到测试集的分类中。这就需要对样本的分布信息有准确的把握，如果假设的样本分布与真实的数据分布有很大的差别的话，其最后产生的回归性能和分类性能都会受到重大影响。
    传统的样本分布估计采用的是参数估计的思想，即假设样本服从某个分布比如说正态分布，然后对正态分布的两个数理统计特征量均值和方差进行参数估计，依次来决定样本的分布。这种思想与先验知识有很大关系，比如对样本的整体分布有个预先的了解，但是针对多个分布合成的分布这种参数估计的思想将无能为力。无参数估计就是针对此歌问题，它关注的就是当前的数据本身，而不去用先验知识来首先确定样本的分布，在无参数分布中的核密度分布估计就是考虑到此分布是n个核密度分布函数叠加而成的一个分布，比如说以正态核函数为例，可以理解为用n个正态函数来逼近真实分布。但是这种无参数估计产生的计算量和数据存储量都是巨大的。不能够草率的说明参数估计更好。
这种思想可以Bayesian分类器进行说明，因为Bayesian分类器针对连续值函数就用到了样本的分布函数，朴素Bayesian分类器假设某个属性的值服从正态分布。这个完全就可以通过参数估计的思想来确定分类器的性能，就是通过无参数估计的思想来确定样本的分布。
Bayesian分类器的基本假设就是i.i.d(independently and identically distribution):独立同分布假设。上述的改进就是基于同分布方面对分类器进行的改进，有些学者为了提高分类器性能在独立性就行放松，这样产生了Bayesian网络分类器。
    现在数据挖掘的一个重大思想就是怎么利用有限的样本数据来很好的实现分类器的推广能力，所谓推广能力就是指在小样本训练集训练的分类器在大数据量的测试数据上性能仍然如此。这和数据的概率分布有很到的关系。