归一化处理数据 python

来源:互联网 发布:怎么注册爱淘宝 编辑:程序博客网 时间:2024/05/18 02:35

源自 machine learning in action
1.原因:
例如在用 KNN 算法处理数据时,比如有两个特征,一个特征的取值范围为0~1,另一个取值范围为1W 以上,那么用欧式距离计算的话第一个特征的影响几乎就会微不足道,为了解决这个问题,在处理数据的时候对数据进行归一化处理。

2.代码:

def autoNorm(dataSet):    #every minimum value of each column, return a list    minVals = dataSet.min(0)    #every maximum value of each column, return a list    maxVals = dataSet.max(0)    ranges = maxVals - minValus    numRow = dataSet.shape[0]    diffSet = dataSet - tile(minVals,(numRow,1))    normSet = diffSet/tile(ranges, (numRow, 1))    return normSet
原创粉丝点击