机器学习实战-k近邻的概述与实现

来源：互联网发布：百度地图数据采集编辑：程序博客网时间：2024/06/17 01:26

算法描述如下：

1）计算已知类别数据集中的点与当前点之间的距离；

2）按照距离递增次序排序；

3）选取与当前点距离最小的k个点；

4）确定前k个点所在类别的出现频率；

5）返回前k个点出现频率最高的类别作为当前点的预测分类。

书中有代码，只是注释给的太少，故提一下用到的几个函数，输出一下中间结果便于理解

#手动创建数据，最简单的knnimport numpy as npimport operatordef createDataSet():    group=np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])    #对应的类别    labels=['A','A','B','B']    return group,labels#实现k近邻算法#输入inX，输出判断出的它的类别def classify0(inX,dataSet,labels,k):    #取到行数    data_size=dataSet.shape[0]    #做差    #tile(inX,(a,b))表示inX在行方向复制a次,列方向上复制b次,b=1就表示保持不动    tmp=np.tile(inX,(data_size,1))    print 'tile后的结果为'    print tmp    delta=np.tile(inX,(data_size,1))-dataSet    print '做差的结果为'    print delta    #平方    square=delta**2    print '平方的结果为'    print square    #每一行求和    square_sum=square.sum(axis=1)    print '求和的结果为'    print square_sum    #开方求得距离    distances=square_sum**0.5    print '最终的距离为'    print distances    #argsort函数:按元素从小到大，取其对应下标    #x=np.array([1,4,3,-1,6,9]),x.argsort()返回的结果是[3,0,2,1,4,5],最小的元素下标为3....    sorted_index=distances.argsort()    #创建一个字典，存取类别到出现次数的映射,'A':5即表示前k个中有5个A类的事物    class_count={}    for i in range(k):        #取到对应的label        tmp_label=labels[sorted_index[i]]        #进行计数        class_count[tmp_label]=class_count.get(tmp_label,0)+1    #按照出现次数，从大到小排序    sorted_class_count=sorted(class_count.iteritems(),key=operator.itemgetter(1),reverse=True)    print '排序后:'    print sorted_class_count    #返回出现次数最多的那个类别    return sorted_class_count[0][0]#开始测试group,labels=createDataSet()print groupprint labels

[[ 1.   1.1] [ 1.   1. ] [ 0.   0. ] [ 0.   0.1]]['A', 'A', 'B', 'B']

#输入数据进行测试classify0([0,0],group,labels,3)

tile后的结果为[[0 0] [0 0] [0 0] [0 0]]做差的结果为[[-1.  -1.1] [-1.  -1. ] [ 0.   0. ] [ 0.  -0.1]]平方的结果为[[ 1.    1.21] [ 1.    1.  ] [ 0.    0.  ] [ 0.    0.01]]求和的结果为[ 2.21  2.    0.    0.01]最终的距离为[ 1.48660687  1.41421356  0.          0.1       ]排序后:[('B', 2), ('A', 1)]
'B'

阅读全文

0 0