机器学习实战-k近邻的概述与实现
来源:互联网 发布:百度地图数据采集 编辑:程序博客网 时间:2024/06/17 01:26
算法描述如下:
1)计算已知类别数据集中的点与当前点之间的距离;
2)按照距离递增次序排序;
3)选取与当前点距离最小的k个点;
4)确定前k个点所在类别的出现频率;
5)返回前k个点出现频率最高的类别作为当前点的预测分类。
书中有代码,只是注释给的太少,故提一下用到的几个函数,输出一下中间结果便于理解
#手动创建数据,最简单的knnimport numpy as npimport operatordef createDataSet(): group=np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) #对应的类别 labels=['A','A','B','B'] return group,labels#实现k近邻算法#输入inX,输出判断出的它的类别def classify0(inX,dataSet,labels,k): #取到行数 data_size=dataSet.shape[0] #做差 #tile(inX,(a,b))表示inX在行方向复制a次,列方向上复制b次,b=1就表示保持不动 tmp=np.tile(inX,(data_size,1)) print 'tile后的结果为' print tmp delta=np.tile(inX,(data_size,1))-dataSet print '做差的结果为' print delta #平方 square=delta**2 print '平方的结果为' print square #每一行求和 square_sum=square.sum(axis=1) print '求和的结果为' print square_sum #开方求得距离 distances=square_sum**0.5 print '最终的距离为' print distances #argsort函数:按元素从小到大,取其对应下标 #x=np.array([1,4,3,-1,6,9]),x.argsort()返回的结果是[3,0,2,1,4,5],最小的元素下标为3.... sorted_index=distances.argsort() #创建一个字典,存取类别到出现次数的映射,'A':5即表示前k个中有5个A类的事物 class_count={} for i in range(k): #取到对应的label tmp_label=labels[sorted_index[i]] #进行计数 class_count[tmp_label]=class_count.get(tmp_label,0)+1 #按照出现次数,从大到小排序 sorted_class_count=sorted(class_count.iteritems(),key=operator.itemgetter(1),reverse=True) print '排序后:' print sorted_class_count #返回出现次数最多的那个类别 return sorted_class_count[0][0]#开始测试group,labels=createDataSet()print groupprint labels
[[ 1. 1.1] [ 1. 1. ] [ 0. 0. ] [ 0. 0.1]]['A', 'A', 'B', 'B']
#输入数据进行测试classify0([0,0],group,labels,3)tile后的结果为[[0 0] [0 0] [0 0] [0 0]]做差的结果为[[-1. -1.1] [-1. -1. ] [ 0. 0. ] [ 0. -0.1]]平方的结果为[[ 1. 1.21] [ 1. 1. ] [ 0. 0. ] [ 0. 0.01]]求和的结果为[ 2.21 2. 0. 0.01]最终的距离为[ 1.48660687 1.41421356 0. 0.1 ]排序后:[('B', 2), ('A', 1)]'B'
阅读全文
0 0
- 机器学习实战-k近邻的概述与实现
- 《机器学习实战》学习笔记:k-近邻算法实现
- 【机器学习实战之一】:C++实现K-近邻算法KNN
- 【机器学习实战】:C++实现K-近邻算法KNN
- 机器学习实战(一)--K近邻算法实现
- 《机器学习实战》——K近邻算法实现
- 《机器学习实战》——k-近邻算法实现
- python机器学习实战1:实现k-近邻算法
- 机器学习与python实战(一)-k近邻
- 《机器学习实战》2.K-近邻算法分析与源码实现(文末附官方勘误表)
- 机器学习实战--K近邻学习
- 机器学习实战K-近邻算法遇到的几个错误
- 机器学习实战之K近邻
- 机器学习实战之K-近邻算法
- 机器学习实战笔记 K近邻算法
- 《机器学习实战》之K-近邻算法
- 机器学习实战-k近邻分类
- 机器学习实战-k近邻算法
- 上拉刷新和下拉刷新的实现
- 初识数组
- xilinx fpga学习笔记7:实现属性参数的功能
- 数据库表索引
- Windows10 下安装 Glide 包
- 机器学习实战-k近邻的概述与实现
- card 驱动(四)关于读写地址
- 三分钟教你读懂支票是什么
- 操作系统基础知识(转载)
- Glide 4.x添加自定义组件原理
- CPU与代码优化(1):用三元操作符替代if-else以降低CPU分支预测惩罚;函数13倍提速(Unity)。
- DAY008
- unity导出.obj模型文件
- Spring MVC 常用注解