机器学习实战-KNN
来源:互联网 发布:关闭windows自动更新 编辑:程序博客网 时间:2024/05/22 00:19
KNN算法
KNN算法流程:
1.求测试数据集与各个训练数据之间的距离
2.然后按照距离递增关系进行排序
3.选取距离最小的K个点
4.确定前K个点所在类别的频率
5.返回前K个点中频率最高的类别作为测试集的预测分类
1.求测试数据集与各个训练数据之间的距离
2.然后按照距离递增关系进行排序
3.选取距离最小的K个点
4.确定前K个点所在类别的频率
5.返回前K个点中频率最高的类别作为测试集的预测分类
缺点:
1,计算量大,需要对所有的数据集遍历一遍。
2,结果不稳定,从图中我们可以看出结果主要由K来确定。K是人为规定的所以导致结果容易出现偏差
优点:
算法简单。
code:
# -*- coding: utf-8 -*-"""Created on Wed Nov 29 16:09:27 2017@author: lenovo"""'''Load data'''def createDataSet(): group = array([[1.0,2.0], [1.2,0.1], [0.1,1.4], [0.3,3.5]]) labels = ['A','A','B','B'] return group,labelsdef classify(input,dataSet,label,k): dataSize = dataSet.shape[0] print(dataSize) diff = tile(input,(dataSize,1)) - dataSet#这里tile相当于把行复制4倍,列不变 sqdiff = diff**2 #print(sum(sqdiff,axis=1)) squareDist = sum(sqdiff,axis=1)#每行相加,相当于x**2+y**2 dist = squareDist**0.5 sortedDistIndex = argsort(dist)#将dist进行排序,sortedDistIndex返回的是标签,0,1,2等 classCount = {}#classCount相当于一个map<char,count>,char相当于标签,count相当于个数 for i in range(k): voteLabel = label[sortedDistIndex[i]]#得到前k个label classCount[voteLabel] = classCount.get(voteLabel,0)+1#classCount.get 从字典中取值,key为voteIlabel,如果没有返回0,如果有就加1 # print("%s:%d"%(voteLabel, classCount[voteLabel])) maxCount = 0 #key就是label,value就是统计的值 for key,value in classCount.items(): if value >maxCount: maxCount = value classes = key return classesif __name__=='__main__': dataSet,labels = createDataSet() #print (dataSet) input = array([1.1,0.3]) K = 3 output = classify(input,dataSet,labels,K) print (output)详细分解一下:
根据算法的第一二步我们已经求得了
A:0.223607
B:1.486607
A:1.702939
B:3.298485
然后我们选择K=3,所以前K个label是:A,B,A。然后对频率进行统计可以得
B:1.486607
A:1.702939
B:3.298485
然后我们选择K=3,所以前K个label是:A,B,A。然后对频率进行统计可以得
A:2,B:1所以这样我们知道测试集肯定被归纳为A了。
下面代码需要补一下python中字典的用法,我也顺便给大家搬运一下吧:
阅读全文
1 0
- 《机器学习实战》--KNN
- 【机器学习实战】KNN
- 机器学习实战--KNN
- 机器学习实战-kNN
- 机器学习实战-KNN
- 机器学习实战---kNN
- 机器学习实战-KNN
- 机器学习实战---KNN
- 机器学习实战-KNN
- 机器学习实战KNN
- [机器学习实战]kNN
- 机器学习实战笔记:KNN
- 机器学习实战之kNN
- 机器学习实战源码KNN
- 机器学习实战-knn-1
- 机器学习实战1KNN
- 机器学习实战-KNN算法
- 机器学习实战 KNN算法
- 正则表达式
- 运算符重载
- 【安全牛学习笔记】手动漏洞挖掘-SQL盲注
- 2017面试官提的面试题
- OpenCV--模糊图像操作
- 机器学习实战-KNN
- JQuery学习之路(样式篇_选择器)
- awk 的內建函数
- 莫烦tensorflow教程笔记(六)
- 本地数据库和hibernate生成的映射文件不一致
- 【OVS2.5源码解读】 内核中的flow table流表操作
- Git 基础
- Linux下 laravel5 访问控制器 404
- 计算页码总数的高效方法