K近邻算法

来源：互联网发布：实验数据记录表电阻编辑：程序博客网时间：2024/06/05 20:37

K-近邻算法（监督）

K为邻近的对象个数，结果影响取决于K的值。

运用算法为距离算法，计算测试点到K个对象（每个对象的距离）

计算步骤

1）计算测试数据与各个训练数据之间的距离；

2）按照距离的递增关系进行排序；

3）选取距离最小的K个点；

4）确定前K个点所在类别的出现频率；

5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

Demo version python3

#coding:utf-8from numpy import *import operator##给出训练数据以及对应的类别def createDataSet():    group = array([[1.0,2.0],[1.2,0.1],[0.1,1.4],[0.3,3.5]])    labels = ['A','A','B','B']    return group,labels###通过KNN进行分类def classify(input,dataSet,label,k):    dataSize = dataSet.shape[0]    ####计算欧式距离    diff = tile(input,(dataSize,1)) - dataSet    sqdiff = diff ** 2    squareDist = sum(sqdiff,axis = 1)###行向量分别相加，从而得到新的一个行向量    dist = squareDist ** 0.5        ##对距离进行排序    sortedDistIndex = argsort(dist)##argsort()根据元素的值从大到小对元素进行排序，返回下标    classCount={}    for i in range(k):        voteLabel = label[sortedDistIndex[i]]        ###对选取的K个样本所属的类别个数进行统计        classCount[voteLabel] = classCount.get(voteLabel,0) + 1    ###选取出现的类别次数最多的类别    maxCount = 0    for key,value in classCount.items():        if value > maxCount:            maxCount = value            classes = key    return classes

测试

#-*-coding:utf-8 -*-import syssys.path.append("...文件路径...")import KNNfrom numpy import *dataSet,labels = KNN.createDataSet()input = array([1.1,0.3])K = 3output = KNN.classify(input,dataSet,labels,K)print("测试数据为:",input,"分类结果为：",output)

阅读全文

0 0