k-临近算法

来源:互联网 发布:只差一个程序员了 编辑:程序博客网 时间:2024/06/05 15:42

对未知类别属性的数据集中的每个点依次执行以下操作:

(1) 计算已知类别数据集中的点与当前点之间的距离;

(2) 按照距离递增次序排列;

(3) 选取与当前点距离最小的k个点;

(4) 确定前k个点所在类别的出现频率;

(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。


距离计算使用的是欧式距离公式。


程序清单:

from numpy import *import operatordef knn(inX, dataSet, labels, k):    dataSetSize = dataSet.shape[0]    diffMat = tile(inX, (dataSetSize, 1)) - dataSet    sqDiffMat = diffMat ** 2    sqDistances = sqDiffMat.sum(axis=1)    distances = sqDistances ** 0.5    sortedDistances = distances.argsort()    classCount = {}    for i in range(k):        voteIlabel = labels[sortedDistances[i]]  #特征值赋给voteIlabel        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)    return sortedClassCount[0][0]print(knn([1.2, 1.2], array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]), ['A', 'A', 'B', 'B'], 3))

原创粉丝点击