k-邻近算法学习
来源:互联网 发布:新东方网络视频哪里买 编辑:程序博客网 时间:2024/03/29 03:21
#-*- coding:utf-8 -*-
from numpy import *
import operator
def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','B','C','D']
return group,labels
def classify0(inX,dataSet,labels,k):
#shape函数是numpy.core.fromnumeric中的函数,它的功能是读取矩阵的长度,
#dataSetSize是sataSet的行数,用上面的举例就是4行
dataSetSize = dataSet.shape[0]
#前面用tile,把一行inX变成4行一模一样的(tile有重复的功能,dataSetSize是重复4遍,后面的1保证重复完了是4行,而不是一行里有四个一样的),然后再减去dataSet,是为了求两点的距离,先要坐标相减,这个就是坐标相减
diffMat = tile(inX,(dataSetSize,1))-dataSet
#用上面得到4组目标数据坐标和4组inX坐标的差值开平方,py里面**是开平方,[(x1-x2)^2,(y1-y2)^2]
sqDiffMat = diffMat**2
#axis=1是列相加,,这样得到了4组数据的[(x1-x2)^2+(y1-y2)^2]
sqDistances = sqDiffMat.sum(axis=1)
#开根号,得出距离
distances = sqDistances**0.5
#argsort是排序,将元素按照由小到大的顺序返回下标,比如([3,1,2]),它返回的就是([1,2,3])
sortedDistIndicies = distances.argsort()
#创建分类字典
classCount={}
#遍历k次(去前k个最近距离的算法)
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
#get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1
classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
#key=operator.itemgetter(1)的意思是按照字典里的第一个排序,{A:1,B:2},要按照第1个(AB是第0个),即‘1’‘2’排序。reverse=True是降序排序
sortedClassCount = sorted(classCount.iteritems(),
key=operator.itemgetter(1),reverse=True)
#返回类别最多的类别
from numpy import *
import operator
def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','B','C','D']
return group,labels
def classify0(inX,dataSet,labels,k):
#shape函数是numpy.core.fromnumeric中的函数,它的功能是读取矩阵的长度,
#dataSetSize是sataSet的行数,用上面的举例就是4行
dataSetSize = dataSet.shape[0]
#前面用tile,把一行inX变成4行一模一样的(tile有重复的功能,dataSetSize是重复4遍,后面的1保证重复完了是4行,而不是一行里有四个一样的),然后再减去dataSet,是为了求两点的距离,先要坐标相减,这个就是坐标相减
diffMat = tile(inX,(dataSetSize,1))-dataSet
#用上面得到4组目标数据坐标和4组inX坐标的差值开平方,py里面**是开平方,[(x1-x2)^2,(y1-y2)^2]
sqDiffMat = diffMat**2
#axis=1是列相加,,这样得到了4组数据的[(x1-x2)^2+(y1-y2)^2]
sqDistances = sqDiffMat.sum(axis=1)
#开根号,得出距离
distances = sqDistances**0.5
#argsort是排序,将元素按照由小到大的顺序返回下标,比如([3,1,2]),它返回的就是([1,2,3])
sortedDistIndicies = distances.argsort()
#创建分类字典
classCount={}
#遍历k次(去前k个最近距离的算法)
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
#get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1
classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
#key=operator.itemgetter(1)的意思是按照字典里的第一个排序,{A:1,B:2},要按照第1个(AB是第0个),即‘1’‘2’排序。reverse=True是降序排序
sortedClassCount = sorted(classCount.iteritems(),
key=operator.itemgetter(1),reverse=True)
#返回类别最多的类别
return sortedClassCount[0][0]
运行后:
ipython
import kNN
In [2]: group,labels = kNN.createDataSet()
In [3]: kNN.classify0([0,0],group,labels,3)
[ 1.48660687 1.41421356 0. 0.1 ]
[2 3 1 0]
Out[3]: 'B'
0 0
- k-邻近算法学习
- [机器学习]k-邻近算法
- k-邻近算法学习笔记
- 【机器学习实战】K-邻近算法
- 机器学习实战之K-邻近算法
- 机器学习之K邻近算法 (KNN)
- k-邻近算法
- K-最邻近算法
- K-邻近算法
- K-邻近算法
- 1、k-邻近算法
- k邻近算法
- KNN-K邻近算法
- k-邻近算法
- K邻近算法
- k-邻近算法笔记
- K邻近算法
- K邻近算法
- CPU简史
- 记面试中知识疑惑点
- c语言进程池的简单实现
- Android组件----Activity
- 数据库跨越访问
- k-邻近算法学习
- tensorflow function笔记: dropout
- NYOJ-71 独木舟上的旅行(贪心)
- Java EE知识储备(五)
- linux几个常用命令总结
- Python_01
- Android 简单的MVP实例
- hduoj 2019数列有序
- Alluxio增强Spark和MapReduce存储能力