k-Nearest Neighbor 算法详解

来源：互联网发布：建筑技术变革知乎编辑：程序博客网时间：2024/05/29 03:27

kNN 算法

算法简介

邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。
kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。
KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成反比。

图解

kNN算法

蓝方块和红三角均是已有分类数据，当前的任务是将绿色圆块进行分类判断，判断是属于蓝方块或者红三角。
使用kNN算法分类：
如果K=3(实线圈)，红三角占比2/3，则判断为红三角；
如果K=5(虚线圈)，蓝方块占比3/5，则判断为蓝方块。

显然，分类的结果与 k 的值有关。

kNN算法的基本要素

1、k 值的选择
2、距离度量
3、分类决策规则

（1）、K 值会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用，容易发生过拟合；如果 K 值较大，优点是可以减少学习的估计误差，缺点是学习的近似误差增大，这时与输入实例较远的训练实例也会对预测起作用，是预测发生错误。在实际应用中，K 值一般选择一个较小的数值，通常采用交叉验证的方法来选择最有的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。
（2）、算法中的分类决策规则往往是多数表决，即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别。
（3）、距离度量一般采用 Lp 距离，当p=2时，即为欧氏距离，在度量之前，应该将每个属性的值规范化，这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。

算法优缺点

优点

1、简单，易于理解，易于实现，无需估计参数，无需训练;
2、适合对稀有事件进行分类;
3、特别适合于多分类问题(multi-modal,对象具有多个类别标签)， kNN比SVM的表现要好。
4、精度高，对异常数据不敏感（你的类别是由邻居中的大多数决定的，一个异常邻居并不能影响太大），无数据输入假定。

缺点

该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算”最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。
该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。计算发杂度高（需要计算新的数据点与样本集中每个数据的“距离”，以判断是否是前k个邻居），空间复杂度高（巨大的矩阵

适用于：Numeric values, nominal values

改进算法

针对以上算法的不足，算法的改进方向主要分成了分类效率和分类效果两方面。
分类效率:事先对样本属性进行约简，删除对分类结果影响较小的属性，快速的得出待分类样本的类别。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。
分类效果:采用权值的方法(和该样本距离小的邻居权值大)来改进，Han等人于2002年尝试利用贪心法，针对文件分类实做可调整权重的k最近邻居法WAkNN (weighted adjusted k nearest neighbor)，以促进分类效果;而Li等人于2004年提出由于不同分类的文件本身有数量上有差异，因此也应该依照训练集合中各种分类的文件数量，选取不同数目的最近邻居，来参与分类。

算法伪代码

kNN算法：kNN(A[n],k)# 输入：A[n]为N个训练样本在空间中的坐标，k为近邻数# 输出：x所属的类别取A[1]~A[k]作为x的初始近邻，计算与测试样本x间的欧式距离d（x,A[i]）,i=1,2,.....,k；按d（x，A[i]）升序排序；取最远样本距离D = max{d(x,a[j]) | j=1,2,...,k};#继续计算剩下的n-k个数据的欧氏距离for(i=k+1;i<=n;i++)      计算a[i]与x间的距离d(x,A[i]);      if(d(x,A[i]))<D               then 用A[i]代替最远样本               #将后面计算的数据直接进行插入即可最后的K个数据是有大小顺序的，再进行K个样本的统计即可计算前k个样本A[i]),i=1,2,..,k所属类别的概率具有最大概率的类别即为样本x的类

python 函数

#knn-k-最临近算法#inX为待分类向量，dataSet为训练数据集#labels为训练集对应标签，k最邻近算法def classify0(inX, dataSet, labels, k):    dataSetSize = dataSet.shape[0]#获得dataSet的行数    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet#对应的差值    sqDiffMat = diffMat**2                           #差的平方    sqDistances = sqDiffMat.sum(axis=1)              #差的平方的和    distances = sqDistances**0.5                     #差的平方的和的平方根    #计算待分类向量与每一个训练数据集的欧氏距离       sortedDistIndicies = distances.argsort() #排序后，统计前面K个数据的分类情况    classCount={} #字典    for i in range(k):        voteIlabel = labels[sortedDistIndicies[i]] #labels 必须是字典        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1    sortedClassCount = sorted(classCount.iteritems(),          key=operator.itemgetter(1), reverse=True)#再次排序    return sortedClassCount[0][0]#第一个就是最多的类别

Euclidian distance 计算

例如：点 (1,0,0,1) 和点 (7,6,9,4) 的欧几里得距离为：
计算公式

预测简单实例

from numpy import *import operatordef createDataSet():    # 创建数据集    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])    labels = ['A','A','B','B']    return group, labelsdef classify0(inX, dataSet, labels, k):    dataSetSize = dataSet.shape[0]    diffMat = tile(inX, (dataSetSize,1)) – dataSet    sqDiffMat = diffMat**2    sqDistances = sqDiffMat.sum(axis=1)    distances = sqDistances**0.5    sortedDistIndicies = distances.argsort()    classCount={}    for i in range(k):        voteIlabel = labels[sortedDistIndicies[i]]        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1        sortedClassCount = sorted(classCount.iteritems(),            key=operator.itemgetter(1), reverse=True)    return sortedClassCount[0][0]group,labels = createDataSet()  # 初始化 kNN 输入数据# 接下来对[0,0]进行预测classify0([0,0], group, labels, 3)# 输出结果为 B

0 0