机器学习实战k-邻近算法(kNN)简单实施代码解读
来源:互联网 发布:zabbix windows 下载 编辑:程序博客网 时间:2024/04/30 02:34
一.概念
k-邻近算法是最简单的机器学习算法之一。
k-邻近算法采用测量不同特征值之间的距离(具体说是欧氏距离)的方法进行分类。
输入待分类的数据后,计算输入特征与样本集数据对应特征的距离,选择样本集中与输入特征距离最小的前k个样本,统计这k个样本数据中出现次数最多的类别作为新数据的分类。
二.kNN的简单实施代码及注释
from numpy import *import operatordef creatDataSet(): dataSet = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return dataSet,labelsdef classify0(inX,dataSet,labels,k): #求出样本集的行数,也就是labels标签的数目 dataSetSize = dataSet.shape[0] #构造输入值和样本集的差值矩阵 diffMat = tile(inX,(dataSetSize,1)) - dataSet #计算欧式距离 sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances**0.5 #求距离从小到大排序的序号 sortedDistIndicies = distances.argsort() #对距离最小的k个点统计对应的样本标签 classCount = {} for i in range(k): #取第i+1邻近的样本对应的类别标签 voteIlabel = labels[sortedDistIndicies[i]] #以标签为key,标签出现的次数为value将统计到的标签及出现次数写进字典 classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #对字典按value从大到小排序 sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True) #返回排序后字典中最大value对应的key return sortedClassCount[0][0]
三.详细解读
这里创建的是一个名为kNN.py的模块。
首先导入了两个模块,一个是科学计算包numpy,另一个是运算符模块,书中有提到。
接着是一个创建数据集的无参函数creatDataSet(),一共4个样本,每个样本有2个特征和1个分类标签。特征集以4*2的数组形式表示,类别标签集以列表的形式表示。
接下来是一个有4个参数的分类函数classify0(inX,dataSet,labels,k):
inX表示待分类的输入特征向量,
dataSet为样本集的特征,
labels为样本集对应每一个样本的分类标签,
k为选择最近距离的样本的数目。
其中dataSet和labels由creatDataSet()函数返回。
求出样本集的行数,即样本个数,也是分类标签labels列表里元素的个数。
shape用于返回一个矩阵或数组的大小,返回的是一个元组,即(行数,列数)。如下:
>>> import kNN>>> dataSet,labels=kNN.creatDataSet()>>> dataSet.shape(4, 2)>>> dataSetarray([[ 1. , 1.1], [ 1. , 1. ], [ 0. , 0. ], [ 0. , 0.1]])>>> dataSet.shape(4, 2)>>> dataSet.shape[0]4>>> dataSet.shape[1]2>>> type(dataSet.shape)<class 'tuple'>
故这里,
shape[0]即得到shape元组的第一个元素,dataSet的行数;
shape[1]即得到shape元组的第二个元素,dataSet的列数;
当有
用于构造输入特征值和样本集的差值矩阵,即每一行有两个元素,
因为dataSet有多个样本,但inX只有一个,矩阵相减要求维数相同,故使用tile()函数,这里是将inX变为dataSetSize*1维的矩阵,每一行都是inX。
关于numpy库中tile()函数的用法,可参考
http://jingyan.baidu.com/article/219f4bf7da4d8dde442d389e.html
sqDiffMat = diffMat**2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances**0.5
用于计算欧氏距离,先将差值矩阵的每一个元素平方,再按行求和,最后开方。
关于sum()函数,表示普通求和,sum(axis=1)表示每一行向量相加,sum(axis=0)表示每一列向量相加,如下:
>>> dataSetarray([[ 1. , 1.1], [ 1. , 1. ], [ 0. , 0. ], [ 0. , 0.1]])>>> dataSet.sum()4.1999999999999993>>> dataSet.sum(axis=1)array([ 2.1, 2. , 0. , 0.1])>>> dataSet.sum(axis=0)array([ 2. , 2.2])
将输入特征与每个样本的欧式距离从小到大排序,返回的是样本在原欧式距离集中的序号。
接着初始化字典,用for循环处理最邻近的前k个样本,统计各类别出现的次数。
以第i+1邻近的样本的类别标签为key,该类别标签出现的次数为value将统计到的类别标签及出现次数写进字典,将该类别出现的次数加1。
关于字典的get()方法,因为voteIlabel是key,get(voteIlabel,0)表示字典按key查找,如果存在这个key,则返回这个key的value;如果当前没有这个key,则返回0。如下:
>>> dic1 = {'color':'red','size':18,3:'good'}>>> dic1{'color': 'red', 3: 'good', 'size': 18}>>> dic1.get('color')'red'>>> dic1.get(3)'good'>>> dic1.get('size',0)18>>> dic1.get(4,0)0
第一次统计到一个类别标签时,由于字典中无对应的key,就返回0,表示当前没有这个类别,之后加1;
不是第一次统计到这个类别标签时,则返回这个标签之前出现的次数,并在此基础上加1。
表示按字典的value进行从大到小排序。
第一个参数指定要排序的列表或者iterable,如果一个对象是iterable的,表示它可以被遍历;
《机器学习实战》中这一块的第一个参数使用的是classCount.iteritems(),用python3.0以后的版本会出现
错误:AttributeError: ‘dict’ object has no attribute ‘iteritems’
python3.0不再支持dict.iteritems(),具体可参考官方更新文档
docs.python.org/release/3.1.3/whatsnew/3.0.html
第二个参数是一个函数,operator.itemgetter(1)表示按字典的第二项即value排序,而不是按key排序;
第三个参数为True表示从大到小排序。
关于Python中的sorted()函数以及operator.itemgetter()函数,可参考
http://blog.csdn.net/alvine008/article/details/37757753
最后返回排序后字典中最大的value对应的key,即对新数据分类的类别。
四.运行结果
因为上述代码为一个模块,故首先要F5 run module,然后在command window中导入该模块,再调用creatDataSet()创建样本集,此时可以查看一下样本是否创建成功,之后就可以调用classify0对新的输入进行分类了。
>>> import kNN>>> dataSet,labels=kNN.creatDataSet()>>> dataSetarray([[ 1. , 1.1], [ 1. , 1. ], [ 0. , 0. ], [ 0. , 0.1]])>>> labels['A', 'A', 'B', 'B']>>> kNN.classify0([0,0],dataSet,labels,3)'B'
- 机器学习实战k-邻近算法(kNN)简单实施代码解读
- 机器学习实战之——KNN k-邻近算法
- 机器学习之K邻近算法 (KNN)
- 机器学习实战k近邻算法(kNN)应用之手写数字识别代码解读
- python3与机器学习实践---1、最简单的K-邻近算法(k-Nearest Neighbor,KNN)
- 【机器学习实战】K-邻近算法
- 机器学习实战之K-邻近算法
- 机器学习算法之 KNN k邻近算法
- 机器学习实战—实施kNN算法
- 机器学习---最邻近规则分类KNN(k-NearestNeighbor)算法
- 机器学习实战ch02 KNN k-近邻算法代码注释
- 机器学习实战:K近邻算法(kNN)
- 机器学习实施kNN之k-近邻算法--算法步骤
- KNN-K邻近算法
- K邻近算法(KNN)
- [机器学习]k-邻近算法
- Python机器学习实战<三>:k-邻近算法
- 机器学习实战笔记(二):K邻近算法
- ThinkPHP单字母函数(快捷方法)使用总结
- Android---widget组件开发
- hello-world
- Android中FTP服务器搭建入门
- activiti的使用以及简单的操作
- 机器学习实战k-邻近算法(kNN)简单实施代码解读
- 一张图告诉你,只会HTML还不够!
- android 6.0 不能搜索Ble设备
- LightOJ 1027 A Dangerous Maze
- MapReduce编程实例之数据去重
- android编译分析之4—product.mk
- 网络部分整理第一部分
- nginx 学习笔记(二) --- 调试
- GitHub Merge