特征向量的归一化方法

来源:互联网 发布:快站绑定独立域名 编辑:程序博客网 时间:2024/05/21 21:42

在使用KNN(k-Nearest Neighbours)根据特征值进行分类的时候,如果所有变量位于同一值域范围内,利用这些变量一次性算出距离值是有意义的。不过,假设我们引入一个对最终的分类结果产生影响的新变量(不同类型的变量 Heterogenous Varibales)。与我们目前使用过的变量不同(假设之前的变量的取值均介于0和100之间),这些变量可能会达到1000。很显然,和原先的变量相比,这个新的变量对距离计算所产生的影响更为显著——其影响将超过任何其他变量对距离计算所构成的影响,这意味着,在计算距离的过程中其他变量根本就未被考虑在内。 (摘自《Programming Collective Intelligence》)

  所以在使用KNN之前需要对所有的变量进行归一化处理。下面介绍几种归一化的方法:

  1、线性函数转换,表达式如下:

    y=(x-MinValue)/(MaxValue-MinValue)

  2、对数函数转换,表达式如下:

    y=log10 (x)

  3、反余切函数转换 ,表达式如下:

    y=arctan(x)*2/PI

  4、减去均值,乘以方差:

    y=(x-means)/ variance

0 0
原创粉丝点击