数据标准化和归一化

来源:互联网 发布:新网域名续费贵么 编辑:程序博客网 时间:2024/04/30 21:43

 

1、综述

1.1原理介绍

归一化方法:
1、把数变为(0,1)之间的小数
  主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
2、把有量纲表达式变为无量纲表达式
  归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

用途

归一化是为了加快训练网络的收敛性

归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的,归一化是同一在0-1之间的统计概率分布;SVM是以降维后线性划分距离来分类和仿真的,因此时空降维归一化是统一在-1--+1之间的统计坐标分布。

神经网络当所有样本的输入信号都为正值时,与第一隐含层神经元相连的权值只能同时增加或减小,从而导致学习速度很慢。为了避免出现这种情况,加快网络学习速度,可以对输入信号进行归一化,使得所有样本的输入信号其均值接近于0或与其均方差相比很小。


标准化方法:      
    数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。

用途:

    数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。 
   数据无量纲化处理主要解决数据的可比性。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权

1.2区别

1、归一化是把数据映射到(0,1)区间内,一般方法是(x-min(x))/(max(x)-min(x)),

2、标准化是一种统计的处理,基于正态分布的假设,但是即使数据不服从正态分布,也可以用此法,区别是标准化后的数据可正可负,但是一般绝对值不会太大

3、标准化后的数据的均值=0,标准差=1

 

2、归一化方法

1.线性转换

y=(x-MinValue)/(MaxValue-MinValue

2.对数函数转换:

y=log10(x)

3.反余切函数转换

y=atan(x)*2/PI

4.线性也与对数函数结合

式(1)将输入值换算为[-1,1]区间的值,

在输出层用式(2)换算回初始值,其中 和分别表示训练样本集中负荷的最大值和最小值。

 

3、标准化方法

1.最小-最大规范化(线性变换)

y=( (x-MinValue) / (MaxValue-MinValue) )(new_MaxValue-new_MinValue)+new_minValue

2.z-score规范化(或零-均值规范化)

y=(x-X的平均值)/X的标准差

优点:当X的最大值和最小值未知,或孤立点左右了最大-最小规范化时, 该方法有用

3.小数定标规范化:通过移动X的小数位置来进行规范化

y= x/10的j次方 (其中,j使得Max(|y|) <1的最小整数

4.对数Logistic模式:

新数据=1/(1+e^(-原数据))

5.模糊量化模式:

新数据=1/2+1/2sin[派3.1415/(极大值-极小值)*

(X-(极大值-极小值)/2) ] X为原数据

 

4、参考文档

http://www.cnblogs.com/subsir/articles/4761140.html

http://www.ilovematlab.cn/thread-27021-1-1.html

http://www.ilovematlab.cn/thread-25643-1-1.html

http://www.cnblogs.com/chaosimple/p/4153167.html

0 0
原创粉丝点击