标准化、归一化(二)

来源:互联网 发布:软件服务提供商 编辑:程序博客网 时间:2024/06/11 10:25

答一:

归一化方法:
1、把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
2、把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。


标准化方法:
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。


作者:艾华丰
链接:https://www.zhihu.com/question/20467170/answer/15214028
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


答二:

作者:myazi
链接:https://www.zhihu.com/question/20467170/answer/222792995
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

1归一化

特点

对不同特征维度的伸缩变换的目的是使各个特征维度对目标函数的影响权重是一致的,即使得那些扁平分布的数据伸缩变换成类圆形。这也就改变了原始数据的一个分布。

好处:

1 提高迭代求解的收敛速度

2 提高迭代求解的精度


2标准化

特点

对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。

好处

1 使得不同度量之间的特征具有可比性,对目标函数的影响体现在几何分布上,而不是数值上

2 不改变原始数据的分布

参考资料:

数据标准化/归一化

处理数据时不进行归一化会有什么影响?归一化的作用是什么?什么时候需要归一化?有哪些归一化的方法?

在进行数据分析的时候,什么情况下需要对数据进行标准化处理? - 王赟 Maigo 的回答

机器学习数据归一化的的方法有哪些?适合于什么样的数据? - 王赟Maigo 的回答

为什么feature scaling会 使gradient descent的收敛更好?- 王赟 Maigo 的回答

数据特征的归一化,是对整个矩阵还是对每一维特征? - 王赟 Maigo 的回答


举例

根据人的身高和体重预测人的健康指数

假设有如下原始样本数据是四维的(当然一般不会有这么无聊的数据)


<img src="https://pic3.zhimg.com/50/v2-ea724ddcc13ceabb23e398f105520432_hd.png" data-rawwidth="750" data-rawheight="121" class="origin_image zh-lightbox-thumb" width="750" data-original="https://pic3.zhimg.com/v2-ea724ddcc13ceabb23e398f105520432_r.png">


从上面两个坐标图可以看出,样本在数据值上的分布差距是不一样的,但是其几何距离是一致的。而标准化就是一种对样本数据在不同维度上进行一个伸缩变化(而不改变数据的几何距离),也就是不改变原始数据的信息(分布)。这样的好处就是在进行特征提取时,忽略掉不同特征之间的一个度量,而保留样本在各个维度上的信息(分布)。

<img src="https://pic3.zhimg.com/50/v2-5cacc982270a6cc7519c8205eb327696_hd.png" data-rawwidth="709" data-rawheight="359" class="origin_image zh-lightbox-thumb" width="709" data-original="https://pic3.zhimg.com/v2-5cacc982270a6cc7519c8205eb327696_r.png">

从采用大单位的身高和体重这两个特征来看,如果采用标准化,不改变样本在这两个维度上的分布,则左图还是会保持二维分布的一个扁平性;而采用归一化则会在不同维度上对数据进行不同的伸缩变化(归一区间,会改变数据的原始距离,分布,信息),使得其呈类圆形。虽然这样样本会失去原始的信息,但这防止了归一化前直接对原始数据进行梯度下降类似的优化算法时最终解被数值大的特征所主导。归一化之后,各个特征对目标函数的影响权重是一致的。这样的好处是在提高迭代求解的精度。


答三:

两种不同的缩放方式,目的都是缩小范围。

归一化

归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。

标准化

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权

进一步参考:

归一化与标准化

统计数据标准化的常见方法



作者:王boy
链接:https://www.zhihu.com/question/20467170/answer/152992661
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文摘录自知乎

原创粉丝点击