数据标准化和归一化

来源：互联网发布：新网域名续费贵么编辑：程序博客网时间：2024/04/30 21:43

1、综述

1.1原理介绍

归一化方法：
1、把数变为（0，1）之间的小数
主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。
2、把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。

用途

归一化是为了加快训练网络的收敛性

归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布，归一化在-1--+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算，首先基本度量单位要同一，神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的，归一化是同一在0-1之间的统计概率分布;SVM是以降维后线性划分距离来分类和仿真的，因此时空降维归一化是统一在-1--+1之间的统计坐标分布。

神经网络当所有样本的输入信号都为正值时，与第一隐含层神经元相连的权值只能同时增加或减小，从而导致学习速度很慢。为了避免出现这种情况，加快网络学习速度，可以对输入信号进行归一化，使得所有样本的输入信号其均值接近于0或与其均方差相比很小。

标准化方法：
数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的，为了能够将指标参与评价计算，需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间。

用途：

数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。
数据无量纲化处理主要解决数据的可比性。去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

1.2区别

1、归一化是把数据映射到（0，1）区间内，一般方法是(x-min(x))/(max(x)-min(x)),

2、标准化是一种统计的处理，基于正态分布的假设，但是即使数据不服从正态分布，也可以用此法，区别是标准化后的数据可正可负，但是一般绝对值不会太大。

3、标准化后的数据的均值＝0，标准差＝1

2、归一化方法

1.线性转换

y=(x-MinValue)/(MaxValue-MinValue

２.对数函数转换：

y=log10(x)

３.反余切函数转换

y=atan(x)*2/PI

４.线性也与对数函数结合

式(1)将输入值换算为[-1,1]区间的值，

在输出层用式(2)换算回初始值，其中和分别表示训练样本集中负荷的最大值和最小值。

3、标准化方法

１.最小－最大规范化(线性变换)

y=( (x-MinValue) / (MaxValue-MinValue) )(new_MaxValue-new_MinValue)+new_minValue

2.z-score规范化(或零－均值规范化)

y=(x-X的平均值)／X的标准差

优点：当X的最大值和最小值未知，或孤立点左右了最大－最小规范化时，该方法有用

３.小数定标规范化：通过移动X的小数位置来进行规范化

y= x/10的j次方 (其中,j使得Max(|y|) <1的最小整数

４.对数Logistic模式：

新数据=1/（1+e^(-原数据)）

５.模糊量化模式：

新数据=1/2+1/2sin[派3.1415/（极大值-极小值）*

（X-（极大值-极小值）/2） ] X为原数据

4、参考文档

http://www.cnblogs.com/subsir/articles/4761140.html

http://www.ilovematlab.cn/thread-27021-1-1.html

http://www.ilovematlab.cn/thread-25643-1-1.html

http://www.cnblogs.com/chaosimple/p/4153167.html

0 0