KNN算法及其实现

来源：互联网发布：德雷克船长拉杆箱淘宝编辑：程序博客网时间：2024/06/01 07:26

K邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

1. 准备数据，对数据进行预处理

2. 选用合适的数据结构存储训练数据和测试元组

3. 设定参数，如k

4.维护一个大小为k的的按距离由大到小的优先级队列，用于存储最近邻训练元组。随机从训练元组中选取k个元组作为初始的最近邻元组，分别计算测试元组到这k个元组的距离，将训练元组标号和距离存入优先级队列

5. 遍历训练元组集，计算当前训练元组与测试元组的距离，将所得距离L 与优先级队列中的最大距离Lmax

6. 进行比较。若L>=Lmax，则舍弃该元组，遍历下一个元组。若L < Lmax，删除优先级队列中最大距离的元组，将当前训练元组存入优先级队列。

7. 遍历完毕，计算优先级队列中k 个元组的多数类，并将其作为测试元组的类别。

8. 测试元组集测试完毕后计算误差率，继续设定不同的k值重新进行训练，最后取误差率最小的k 值。

代码如下：（python编写）

#encoding=utf-8#__author__ = 'kangqi'#2015/5/11#--------------------------#KNN algorithm#--------------------------from numpy import *import operator#读取文本文件并转化为矩阵，特征三维，加一列标签，标签离散值取0或1def file2matrix(filename):    fr=open(filename)    numlines=len(fr.readlines())    mat=zeros((numlines,3))    label=[]    index=0    fr = open(filename)    for line in fr.readlines():        line = line.strip()        arr = line.split('\t')        mat[index,:] = arr[0:3]        label.append(int(arr[-1]))        index += 1    return mat,labeldef KNN_algorithm(X,mat,label,K):    mat_size=mat.shape[0]    dis=tile(X,(mat_size,1))-mat    dis_1=dis**2    dis_2=dis_1.sum(axis=1)    sort_dis_2=dis_2.argsort()    count={}    for i in range(K):        vlabel=label[sort_dis_2[i]]        count[vlabel]=count.get(vlabel,0)+1    sortecount = sorted(count.iteritems(), key=operator.itemgetter(1), reverse=True)    return sortecount[0][0]#--------------------------#main调用#--------------------------mat,label=file2matrix('test.txt')X=[2,3,4]return_label=KNN_algorithm(X,mat,label,3)print return_label

0 0