机器学习实战 KNN算法

来源:互联网 发布:sql server培训费用 编辑:程序博客网 时间:2024/05/22 02:15
# -*- coding: utf-8 -*-"""Created on Wed Jan 25 13:45:32 2017@author: Administrator"""#KNN,K-近邻算法from numpy import *import operator #运算符模块#建样本集def createDataSet():    group = array([[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]])    labels = ['A', 'A', 'B', 'B']    return group, labels    # k-近邻算法def classify0(inX, dataSet, labels, k):    dataSetSize = dataSet.shape[0] #获取样本集行数    #算待分类数据(如[1.2,0.8])与样本集每行的欧拉距离        diffMat = tile(inX, (dataSetSize, 1)) - dataSet    sqDiffMat = diffMat**2    sqDistances = sqDiffMat.sum(axis=1) #按行相加,每一行都是dx^2 + dy^2    distances = sqDistances**0.5    #返回距离从小到大排序的索引,如[1.5, 1.4, 0, 0.1],返回的是[2, 3, 1, 0],即最小的数原来的索引为2,最大的数原来的索引为0     sortedDistIndicies = distances.argsort()     #返回前K个里面出现频率最高的,作为当前的预测分类        classCount={}    for i in range(k):        voteIlabel = labels[sortedDistIndicies[i]]        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1         '''         #get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,          如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1                  '''    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1),reverse=True)    '''     #key=operator.itemgetter(1)的意思是    按照字典里的值排序,{A:1,B:2},要按照值(A,B是键),即‘1’‘2’排序。reverse=True是降序排序    '''    return sortedClassCount[0][0]                

测试如下:


结果:

'A'

0 0
原创粉丝点击