K近邻算法

来源:互联网 发布:实验数据记录表电阻 编辑:程序博客网 时间:2024/06/05 20:37

K-近邻算法(监督)

K为邻近的对象个数,结果影响取决于K的值。

运用算法为距离算法,计算测试点到K个对象(每个对象的距离)

计算步骤

1)计算测试数据与各个训练数据之间的距离;

2)按照距离的递增关系进行排序;

3)选取距离最小的K个点;

4)确定前K个点所在类别的出现频率;

5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。

Demo version python3

#coding:utf-8from numpy import *import operator##给出训练数据以及对应的类别def createDataSet():    group = array([[1.0,2.0],[1.2,0.1],[0.1,1.4],[0.3,3.5]])    labels = ['A','A','B','B']    return group,labels###通过KNN进行分类def classify(input,dataSet,label,k):    dataSize = dataSet.shape[0]    ####计算欧式距离    diff = tile(input,(dataSize,1)) - dataSet    sqdiff = diff ** 2    squareDist = sum(sqdiff,axis = 1)###行向量分别相加,从而得到新的一个行向量    dist = squareDist ** 0.5        ##对距离进行排序    sortedDistIndex = argsort(dist)##argsort()根据元素的值从大到小对元素进行排序,返回下标    classCount={}    for i in range(k):        voteLabel = label[sortedDistIndex[i]]        ###对选取的K个样本所属的类别个数进行统计        classCount[voteLabel] = classCount.get(voteLabel,0) + 1    ###选取出现的类别次数最多的类别    maxCount = 0    for key,value in classCount.items():        if value > maxCount:            maxCount = value            classes = key    return classes    


测试

#-*-coding:utf-8 -*-import syssys.path.append("...文件路径...")import KNNfrom numpy import *dataSet,labels = KNN.createDataSet()input = array([1.1,0.3])K = 3output = KNN.classify(input,dataSet,labels,K)print("测试数据为:",input,"分类结果为:",output)




原创粉丝点击