数据预处理之数据标准化

来源:互联网 发布:无限网络万能钥匙 编辑:程序博客网 时间:2024/05/16 09:16

数据标准化的意义

在对数据集建模前,常常要对数据的某一特征或几个特征进行规范化处理,其目的在于将特征值归一到同一个维度,消除比重不平衡的问题。

常用的标准化方法有 最大-最小标准化零-均值标准化小数定标标准化

最大-最小标准化

最大-最小标准化又称为离差标准化,将原始数据进行线性变换,映射到[0,1]区间。
转换公式如下:

max-min 标准化

其中,max为特征中最大的值,min为特征中最小的值。max-min表示极差。

这种标准化的优点是实现简单、保留了原始数据之间的关系。

缺点也很明显,即:
1.当样本中的max过大时,会使得标准化后各值之间相差不大,无法准确表示样本间的差异;
2.当新加入的样本的值大于max或小于min,会使标准化产生混乱,即每当有新样本导入时,必须重新计算max和min。

零-均值标准化

零-均值标准化也称标准差标准化,经过该标准化处理后的数据的均值为0,标准差为1。转化公式如下:

这里写图片描述

其中,x ̅表示样本的均值,σ表示样本的标准差,是目前使用最多的标准化方法。

优点:
1.将属性值转换为标准的正态分布模型,便于某些算法的实施
2.转换后的属性值离中心点的距离表示了它的概率值。

小数定标标准化

小数定标标准化即是通过移动属性值的小数位数来将属性值圈定在[0,1]之间,移动小数的位数决定于属性值绝对值的最大值,转化公式为:

这里写图片描述

其中,k为属性值绝对值的最大值的位数

参考

《python数据分析与挖掘实战》

原创粉丝点击