k-临近算法

来源：互联网发布：只差一个程序员了编辑：程序博客网时间：2024/06/05 15:42

对未知类别属性的数据集中的每个点依次执行以下操作：

（1）计算已知类别数据集中的点与当前点之间的距离；

（2）按照距离递增次序排列；

（3）选取与当前点距离最小的k个点；

（4）确定前k个点所在类别的出现频率；

（5）返回前k个点出现频率最高的类别作为当前点的预测分类。

距离计算使用的是欧式距离公式。

程序清单：

from numpy import *import operatordef knn(inX, dataSet, labels, k):    dataSetSize = dataSet.shape[0]    diffMat = tile(inX, (dataSetSize, 1)) - dataSet    sqDiffMat = diffMat ** 2    sqDistances = sqDiffMat.sum(axis=1)    distances = sqDistances ** 0.5    sortedDistances = distances.argsort()    classCount = {}    for i in range(k):        voteIlabel = labels[sortedDistances[i]]  #特征值赋给voteIlabel        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)    return sortedClassCount[0][0]print(knn([1.2, 1.2], array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]), ['A', 'A', 'B', 'B'], 3))

阅读全文

0 0