KNN-K邻近算法

来源：互联网发布：java 验证码识别编辑：程序博客网时间：2024/04/19 11:25

KNN-K邻近算法学习笔记

kNN算法又称为k最近邻分类算法，是一种监督学习类方法，并且kNN算法不需要预先训练，也就是说kNN算法只有测试过程，没有训练过程。所谓的k最近邻，就是指最接近的k个邻居（数据），核心思想是：在一个含未知样本的空间，可以根据离这个样本最邻近的k个样本的数据类型来确定样本的数据类型。你可以简单的理解为由那离自己最近的K个点来投票决定待分类数据归为哪一类。

该算法涉及3个主要因素：训练集、距离的衡量、k的大小。

距离的衡量在之前的K-means的笔记里有实现欧式距离和person相似系数来衡量样本之间的距离。

KNN算法过程：

输入一个测试样本，计算已知类别的点（即训练集）与测试样本的距离。
在训练集中选取与测试样本距离最小的k个点。
确定前k个点所在类别的出现次数。
获得投票最高的类别输入的测试样本的预测分类。

KNN算法的Python实现：

距离的衡量使用的是欧氏距离

# encoing:utf-8import numpy as npimport mathimport pandas as pdimport operatordef KNN(X_test, dataSet,labels,k):    dataSet = pd.DataFrame(dataSet, index=None)    dataSetSize = dataSet.shape[0]    # sqDiffvec = []    sqDiff = []    X_test=pd.Series(X_test, index=None)    for i in range(dataSetSize):        sqDiffveci = dataSet[i]-X_test        sqDiffveci = sqDiffveci.apply(lambda x: x**2)        sqDiffi = math.sqrt(sum(list(sqDiffveci)))        # sqDiffvec.append(list(sqDiffveci))        sqDiff.append(sqDiffi) # 存下每个距离    sortedsqDiffindex = np.argsort(sqDiff)    classCount={}    # 选取距离最小的k个点    for i in range(k):        votelabel = labels[sortedsqDiffindex[i]]        classCount[votelabel] = classCount.get(votelabel, 0)+1    sortedclassCount=sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)    return sortedclassCount.keys()[0]

0 0