【数据处理3】:缺失值,数据规范化,相关系数,卡方检验

来源:互联网 发布:电视剧网络播放量排名 编辑:程序博客网 时间:2024/05/22 04:40

缺失值的处理方法:

1,忽略元组

2,人工填写缺失值

3,使用全局变量填充空缺值

4,使用与给定元组属同一类所有样本的平均值

5,使用最可能的值填充缺失值,像使用贝叶斯公式或者是决策树


数据规范化的方法:

1,最小-最大规范化

这种方法没啥好说的,一个公式解决   V‘ = (v-minA)*(new_maxA-new_minA)/(maxA-minA);

2,z-score规范化

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:

clip_image004

其中clip_image006为所有样本数据的均值,clip_image008为所有样本数据的标准差。

3,小数定标规范化

很简单的一个例子: -986变成 -0.986,让 A变成绝对值小于1的最大的跟A同构的数

多举几个: 72-------------》0.72 这下懂了吧? 

 


0 0
原创粉丝点击