数据预处理之数据标准化
来源:互联网 发布:无限网络万能钥匙 编辑:程序博客网 时间:2024/05/16 09:16
数据标准化的意义
在对数据集建模前,常常要对数据的某一特征或几个特征进行规范化处理,其目的在于将特征值归一到同一个维度,消除比重不平衡的问题。
常用的标准化方法有 最大-最小标准化、零-均值标准化 和 小数定标标准化。
最大-最小标准化
最大-最小标准化又称为离差标准化,将原始数据进行线性变换,映射到[0,1]区间。
转换公式如下:
其中,max为特征中最大的值,min为特征中最小的值。max-min表示极差。
这种标准化的优点是实现简单、保留了原始数据之间的关系。
缺点也很明显,即:
1.当样本中的max过大时,会使得标准化后各值之间相差不大,无法准确表示样本间的差异;
2.当新加入的样本的值大于max或小于min,会使标准化产生混乱,即每当有新样本导入时,必须重新计算max和min。
零-均值标准化
零-均值标准化也称标准差标准化,经过该标准化处理后的数据的均值为0,标准差为1。转化公式如下:
其中,x ̅表示样本的均值,σ表示样本的标准差,是目前使用最多的标准化方法。
优点:
1.将属性值转换为标准的正态分布模型,便于某些算法的实施
2.转换后的属性值离中心点的距离表示了它的概率值。
小数定标标准化
小数定标标准化即是通过移动属性值的小数位数来将属性值圈定在[0,1]之间,移动小数的位数决定于属性值绝对值的最大值,转化公式为:
其中,k为属性值绝对值的最大值的位数。
参考
《python数据分析与挖掘实战》
阅读全文
1 0
- 数据预处理之标准化
- 数据预处理之数据标准化
- 数据预处理之特征标准化
- 数据预处理之 标准化/正则化 处理
- python 数据预处理 数据标准化
- 7 数据预处理-数据标准化
- 数据预处理-归一化与z-score标准化
- 数据预处理 - 归一化/标准化/正则化
- 梯度下降算法数据的标准化预处理
- 数据标准化
- 数据标准化
- 数据标准化
- 数据标准化
- 数据标准化
- 数据标准化
- 数据标准化
- 数据标准化
- 数据标准化
- spring 之 Listener的异步调用
- Android如何设置TextView的行间距、行高
- 【题解】vijos1093 文科生的烦恼
- 笔记11:进程控制编程
- HDU
- 数据预处理之数据标准化
- Python 无法导入django
- Servlet入门简单介绍
- 汇编速查手册
- L2-023. 图着色问题
- hdu 6097 Mindis(几何)
- SSH协议小结
- 执行计划中三种最常用连接方式的伪码实现
- opencv录制视频