数据归一化方法大全

来源:互联网 发布:淘宝主图图标素材 编辑:程序博客网 时间:2024/04/29 03:40

在数据分析之前,

我们通常需要先将数据标准化

normalization

利用标准

化后的数据进行数据分析。

数据标准化也就是统计数据的指数化。

数据标准化处

理主要包括数据同趋化处理和无量纲化处理两个方面。

数据同趋化处理主要解决

不同性质数据问题,

对不同性质指标直接加总不能正确反映不同作用力的综合结

果,

须先考虑改变逆指标数据性质,

使所有指标对测评方案的作用力同趋化,

加总才能得出正确结果。

数据无量纲化处理主要解决数据的可比性。

数据标准化

的方法有很多种,常用的有“最小—最大标准化”

Z-score

标准化”和“按小

数定标标准化”

等。

经过上述标准化处理,

原始数据均转换为无量纲化指标测评

值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。

 

 

 

 

一、

m

ax

Min

标准化

 

 

 

 

 

m

a

x

M

i

n

标准化方法是对原始数据进行线性变换。设

minA

maxA

分别

为属性

A

的最小值和最大值,将

A

的一个原始值

x

通过

m

ax

Min

标准化映射

成在区间

[0,1]

中的值

'

x

,其公式为:

 

 

 

 

 

 

新数据

=

(原数据

-

极小值)

/

(极大值

-

极小值)

 

 

 

 

 

二、

z-score 

标准化

 

 

 

 

 

 

 

这种方法基于原始数据的均值(

mean

)和标准差(

standard deviation

)进行

数据的标准化。将

A

的原始值

x

使用

z-score

标准化到

x'

 

 

 

 

 

 

z-score

标准化方法适用于属性

A

的最大值和最小值未知的情况,或有超出

取值范围的离群数据的情况。

 

 

 

 

 

 

新数据

=

(原数据

-

均值)

/

标准差

 

 

 

 

 

 

spss

默认的标准化方法就是

z-score

标准化。

 

 

 

 

 

 

Excel

进行

z-score

标准化的方法:

Excel

中没有现成的函数,

需要自己

分步计算,其实标准化的公式很简单。

 

步骤如下:

 

 

 

 

 

1.

求出各变量(指标)的算术平均值(数学期望)

xi

和标准差

si 

 

 

 

 

 

2.

进行标准化处理:

 

 

 

 

 

 

 

zij

=(

xij

xi

)/

si 

 

 

 

 

 

 

其中:

zij

为标准化后的变量值;

xij

为实际变量值。

 

 

 

 

 

3.

将逆指标前的正负号对调。

 

 

 

 

 

标准化后的变量值围绕

0

上下波动,

大于

0

说明高于平均水平,

小于

0

说明

低于平均水平。

 

 

 

 

 

 

三、

Decimal scaling

小数定标标准化

 

 

 

 

 

 

这种方法通过移动数据的小数点位置来进行标准化。

小数点移动多少位取决

于属性

A

的取值中的最大绝对值。将属性

A

的原始值

x

使用

decimal 

scaling

准化到

x'

的计算方法是:

 

 

 

 

 

 

x'=x/(10*j) 

 

 

 

 

 

其中,

j

是满足条件的最小整数。

 

 

 

 

 

 

例如

 

假定

A

的值由

-986

917

A

的最大绝对值为

986

,为使用小数定标

标准化,我们用

1000

(即,

j=3

)除以每个值,这样,

-986

被规范化为

-0.986

 

 

 

 

 

 

注意,

标准化会对原始数据做出改变,

因此需要保存所使用的标准化方法的

参数,以便对后续的数据进行统一的标准化。

 

 

 

 

 

 

除了上面提到的数据标准化外还有对数

Logistic

模式、模糊量化模式等等:

 

 

 

 

 

 

对数

Logistic

模式:新数据

=1/

1+e^(-

原数据

)

 

 

 

 

 

 

 

模糊量化模式:新数据

=1/2+1/2sin[

3.1415/

(极大值

-

极小值)

*

X-

(极








0 0
原创粉丝点击