特征向量的归一化方法

来源：互联网发布：快站绑定独立域名编辑：程序博客网时间：2024/05/21 21:42

在使用KNN（k-Nearest Neighbours）根据特征值进行分类的时候，如果所有变量位于同一值域范围内，利用这些变量一次性算出距离值是有意义的。不过，假设我们引入一个对最终的分类结果产生影响的新变量（不同类型的变量 Heterogenous Varibales）。与我们目前使用过的变量不同（假设之前的变量的取值均介于0和100之间），这些变量可能会达到1000。很显然，和原先的变量相比，这个新的变量对距离计算所产生的影响更为显著——其影响将超过任何其他变量对距离计算所构成的影响，这意味着，在计算距离的过程中其他变量根本就未被考虑在内。（摘自《Programming Collective Intelligence》）

　　所以在使用KNN之前需要对所有的变量进行归一化处理。下面介绍几种归一化的方法：

　　1、线性函数转换，表达式如下：

　　　　y=(x-MinValue)/(MaxValue-MinValue)

　　2、对数函数转换，表达式如下：

　　　　y=log₁₀(x)

　　3、反余切函数转换，表达式如下：

　　　　y=arctan(x)*2/PI

　　4、减去均值，乘以方差：

　　　　y=(x-means)/ variance

0 0