机器学习实战k-邻近算法(kNN)简单实施代码解读

来源：互联网发布：zabbix windows 下载编辑：程序博客网时间：2024/04/30 02:34

一.概念

k-邻近算法是最简单的机器学习算法之一。

k-邻近算法采用测量不同特征值之间的距离（具体说是欧氏距离）的方法进行分类。

输入待分类的数据后，计算输入特征与样本集数据对应特征的距离，选择样本集中与输入特征距离最小的前k个样本，统计这k个样本数据中出现次数最多的类别作为新数据的分类。

二.kNN的简单实施代码及注释

from numpy import *import operatordef creatDataSet():    dataSet = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])    labels = ['A','A','B','B']    return dataSet,labelsdef classify0(inX,dataSet,labels,k):    #求出样本集的行数，也就是labels标签的数目    dataSetSize = dataSet.shape[0]    #构造输入值和样本集的差值矩阵    diffMat = tile(inX,(dataSetSize,1)) - dataSet    #计算欧式距离    sqDiffMat = diffMat**2    sqDistances = sqDiffMat.sum(axis=1)    distances = sqDistances**0.5    #求距离从小到大排序的序号    sortedDistIndicies = distances.argsort()    #对距离最小的k个点统计对应的样本标签    classCount = {}    for i in range(k):        #取第i+1邻近的样本对应的类别标签        voteIlabel = labels[sortedDistIndicies[i]]        #以标签为key，标签出现的次数为value将统计到的标签及出现次数写进字典        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1    #对字典按value从大到小排序    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)    #返回排序后字典中最大value对应的key    return sortedClassCount[0][0]

三.详细解读

这里创建的是一个名为kNN.py的模块。

首先导入了两个模块，一个是科学计算包numpy，另一个是运算符模块，书中有提到。

接着是一个创建数据集的无参函数creatDataSet()，一共4个样本，每个样本有2个特征和1个分类标签。特征集以4*2的数组形式表示，类别标签集以列表的形式表示。

接下来是一个有4个参数的分类函数classify0(inX,dataSet,labels,k)：
inX表示待分类的输入特征向量，
dataSet为样本集的特征，
labels为样本集对应每一个样本的分类标签，
k为选择最近距离的样本的数目。
其中dataSet和labels由creatDataSet()函数返回。

★dataSetSize = dataSet.shape[0]
求出样本集的行数，即样本个数，也是分类标签labels列表里元素的个数。

shape用于返回一个矩阵或数组的大小，返回的是一个元组，即（行数，列数）。如下：

>>> import kNN>>> dataSet,labels=kNN.creatDataSet()>>> dataSet.shape(4, 2)>>> dataSetarray([[ 1. ,  1.1],       [ 1. ,  1. ],       [ 0. ,  0. ],       [ 0. ,  0.1]])>>> dataSet.shape(4, 2)>>> dataSet.shape[0]4>>> dataSet.shape[1]2>>> type(dataSet.shape)<class 'tuple'>

故这里，
shape[0]即得到shape元组的第一个元素，dataSet的行数；
shape[1]即得到shape元组的第二个元素，dataSet的列数；

当有n个特征时，欧式距离

d = (A 0 - B 0) 2 + (A 1 - B 1) 2 + (A 2 - B 2) 2 + \dots + (A n - B n) 2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt

由于这里只有两个特征，故简化为

d = (A 0 - B 0) 2 + (A 1 - B 1) 2 - - - - - - - - - - - - - - - - - - - - \sqrt

★diffMat = tile(inX,(dataSetSize,1)) - dataSet
用于构造输入特征值和样本集的差值矩阵,即每一行有两个元素，[(A0−Bi0),(A1−Bi1)]，即输入样本的特征和第i个样本对应特征的差。

因为dataSet有多个样本，但inX只有一个，矩阵相减要求维数相同，故使用tile()函数，这里是将inX变为dataSetSize*1维的矩阵，每一行都是inX。

关于numpy库中tile()函数的用法，可参考

http://jingyan.baidu.com/article/219f4bf7da4d8dde442d389e.html

★
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
用于计算欧氏距离，先将差值矩阵的每一个元素平方，再按行求和，最后开方。

关于sum()函数，表示普通求和，sum(axis=1)表示每一行向量相加，sum(axis=0)表示每一列向量相加，如下：

>>> dataSetarray([[ 1. ,  1.1],       [ 1. ,  1. ],       [ 0. ,  0. ],       [ 0. ,  0.1]])>>> dataSet.sum()4.1999999999999993>>> dataSet.sum(axis=1)array([ 2.1,  2. ,  0. ,  0.1])>>> dataSet.sum(axis=0)array([ 2. ,  2.2])

★sortedDistIndicies = distances.argsort()
将输入特征与每个样本的欧式距离从小到大排序，返回的是样本在原欧式距离集中的序号。

接着初始化字典，用for循环处理最邻近的前k个样本，统计各类别出现的次数。

★classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
以第i+1邻近的样本的类别标签为key，该类别标签出现的次数为value将统计到的类别标签及出现次数写进字典，将该类别出现的次数加1。

关于字典的get()方法，因为voteIlabel是key，get(voteIlabel,0)表示字典按key查找，如果存在这个key，则返回这个key的value；如果当前没有这个key，则返回0。如下：

>>> dic1 = {'color':'red','size':18,3:'good'}>>> dic1{'color': 'red', 3: 'good', 'size': 18}>>> dic1.get('color')'red'>>> dic1.get(3)'good'>>> dic1.get('size',0)18>>> dic1.get(4,0)0

第一次统计到一个类别标签时，由于字典中无对应的key，就返回0，表示当前没有这个类别，之后加1；
不是第一次统计到这个类别标签时，则返回这个标签之前出现的次数，并在此基础上加1。

★sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
表示按字典的value进行从大到小排序。
第一个参数指定要排序的列表或者iterable，如果一个对象是iterable的，表示它可以被遍历；

《机器学习实战》中这一块的第一个参数使用的是classCount.iteritems()，用python3.0以后的版本会出现
错误：AttributeError: ‘dict’ object has no attribute ‘iteritems’

python3.0不再支持dict.iteritems()，具体可参考官方更新文档

docs.python.org/release/3.1.3/whatsnew/3.0.html

这里写图片描述

第二个参数是一个函数，operator.itemgetter(1)表示按字典的第二项即value排序，而不是按key排序；
第三个参数为True表示从大到小排序。

关于Python中的sorted()函数以及operator.itemgetter()函数，可参考

http://blog.csdn.net/alvine008/article/details/37757753

★return sortedClassCount[0][0]
最后返回排序后字典中最大的value对应的key，即对新数据分类的类别。

四.运行结果

因为上述代码为一个模块，故首先要F5 run module，然后在command window中导入该模块，再调用creatDataSet()创建样本集，此时可以查看一下样本是否创建成功，之后就可以调用classify0对新的输入进行分类了。

>>> import kNN>>> dataSet,labels=kNN.creatDataSet()>>> dataSetarray([[ 1. ,  1.1],       [ 1. ,  1. ],       [ 0. ,  0. ],       [ 0. ,  0.1]])>>> labels['A', 'A', 'B', 'B']>>> kNN.classify0([0,0],dataSet,labels,3)'B'

0 0