程序博客网 > ds数据精灵破解版

归一化和标准化

来源：互联网发布：ds数据精灵破解版编辑：程序博客网时间：2024/04/30 21:28

主要是读了这篇文章才深入理解这两个的区别

http://www.zhaokv.com/2016/01/normalization-and-standardization.html

归一化
对原始数据进行线性转换到 [0,1] 区间，如下：
$x^{'}=\frac{x-min}{max - min}$
最小值和最大值特别容易受异常值影响，因此鲁棒性不好，比较适合传统的小数据场景
标准化
最常用的方法是Z-score标准化，即将数据转化成均值为0，标准差为1，处理方法如下：
$x^{'}=\frac{x-\mu}{\sigma}$
其中 $\mu$ 是样本的均值， $\sigma$ 是样本的标准差，适合已有的样本量足够大的时候使用。
理论解释
归一化的依据非常简单，归一化可以消除量纲对结果的影响，使不同变量有可比性。
标准化的依据相对复杂，它表示原始值和均值之间差几个标准差，是一个相对值，有去除量纲的效果，还带来了两个附加好处：均值为0，方差为1.
均值为0可以带来很多遍历，比如在去中心化的数据上做SVD分解等价于在原始数据上做PCA；机器学习中很多函数如Sigmoid、Tanh、Softmax等都以0为中心左右分布（不一定对称），这点后续需要再详细琢磨
标准差为1带来的好处：对于 $x_{i}$ 与 $x_{i}^{'}$ 两点间的距离为：
$D(\Large x_{i},\Large x_{i}^{'}) = \sum_{j=1}^p \omega_j d_j(x_{ij},x_{ij}^{'}) ; \sum_{j=1}^{p}\omega_j=1$
其中 $d_j(x_{ij},x_{ij}^{'})$ 是属性 j 两个点之间的距离， $\omega_j$ 是该属性间距离在总距离中的权重，注意：就算 $\omega_j = 1, \forall j$ 也不能实现每个属性对最后的结果贡献度相同，对于给定的数据集，所有点对间距离的平均值是个定值，
$\bar{D} = \frac{1}{N^2} \sum_{i=1}^N \sum_{i^{'}=1}^N D(\Large x_{i},\Large x_{i}^{'}) = \sum_{j=1}^p \omega_j \cdot \bar{d}_j$
其中，
$\bar{d}_j = \frac{1}{N^2} \sum_{i=1}^N \sum_{i^{'}=1}^N d_j(\Large x_{ij},\Large x_{ij}^{'})$
可见第j个变量对最终整体平均距离的影响是 $\omega_j \cdot \bar{d}_j$ ，所以是 $\omega_j \sim 1/\bar{d}_j$ 可以使所有属性对全体数据集平均距离的贡献相同，再进一步假设 $d_j$ 为欧式距离（即二次范数）的平方，则
$\bar{d}_j = \frac{1}{N^2} \sum_{i=1}^N \sum_{i^{'}=1}^N d_j(\Large x_{ij},\Large x_{ij}^{'}) = 2 \cdot var_j$
其中 $var_j$ 是 $Var( X_j)$ 的样本估计，也就是说每个变量对距离的贡献度正比于这个变量在数据集上的方差。如果我令标准差为1，每个维度在计算距离是的重要程度相同。
如果想让每个维度在计算距离时发挥相同的作用，应该选择标准化，如果想保留原始数据中由标准差所反映的潜在权重关系，应该选择归一化；标准化更适合噪音大数据。

0 0

ds数据精灵破解版

ds数据精灵破解版

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子赌球输了五万怎么办筹码全剩蓝色怎么办宝宝手腕拉伤了怎么办触摸开关不管用怎么办一体机触摸屏摔坏怎么办扎金花老输怎么办扎金花一直输怎么办扎金花运气不好怎么办打金花手气不好怎么办炸金花手气不好怎么办炸金花手气差怎么办雪茄盒湿度高怎么办 loop语句缺少do怎么办牙齿上有白斑怎么办微博转发不了怎么办对方说累了怎么办网赌欠一身的债怎么办老公事业低谷期怎么办户口性质弄错了怎么办户口本主页丢了怎么办咳嗽得厉害该怎么办咳嗽引发的感冒怎么办孩子睡觉爱出汗怎么办孩子睡觉爱出汗怎么办? 孩子跑步后咳嗽怎么办肌肉型小腿粗怎么办踢足球o型腿肿了怎么办宝宝肩带老掉怎么办打篮球小腿变粗怎么办胶皮篮球洗完怎么办肝硬化病人想吐怎么办肝硬化病人吃东西就想吐怎么办我有脂肪肝该怎么办如果有乙肝工作怎么办人有脂肪肝怎么办办三个月宝宝偏胖怎么办两岁宝宝胖怎么办新生儿婴儿偏胖怎么办 18年世界杯下雨怎么办新篮球太滑怎么办新篮球有点滑怎么办