kNN算法

来源：互联网发布：淘宝网店铺招牌图片编辑：程序博客网时间：2024/04/24 21:02

一、简介

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

二、内容

1.思想

在距离空间里，如果一个样本的最接近的k个邻居里，绝大多数的邻居都属于某个类别，则该样本也属于这个类别。

2.过程

（1）距离：计算测试对象与训练集中每个对象之间的距离；
（2）邻居：找到距离最近的k个对象作为邻居；
（3）分类：根据k个邻居所属类别情况，对测试对象进行分类。

    def kNN(inX, dataSet, labels, k):        dataSetSize = dataSet.shape[0]        diffMat = tile(inX, (dataSetSize,1)) - dataSet        sqDiffMat = diffMat**2        sqDistances = sqDiffMat.sum(axis=1) #行向量相加        distances = sqDistances**0.5        sortedDistIndicies = distances.argsort() #从小到大返回索引值          classCount={}                  for i in range(k):            voteIlabel = labels[sortedDistIndicies[i]]            classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1        sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)        return sortedClassCount[0][0]

3.距离度量

距离越近应该意味着这两个对象属于一个分类的可能性越大。在KNN算法中，常用的距离有三种，分别为曼哈顿距离、欧式距离和闵可夫斯基距离，需要根据实际问题进行选择（比如对于文本距离来说，计算余弦值更恰当）。

4.类别判定

无加权投票：近邻中哪个类别的对象最多就分为该类
加权投票：根据距离大小，对近邻的投票进行加权投票

5.k值的选择

k值的不同会导致可能会导致分类结果的不同，一般会使用交叉验证法交叉验证法选择合适的k值。

三、优缺点

1.优点：精度高、对异常值不敏感、无输入数据假定。
2.缺点：计算复杂度高、空间复杂度高，无法给出数据的基础结构信息。

四、优化

1.适用数据范围：数值型、标称型。

监督学习一般使用两种类型的目标变量：标称型和数值型
- 标称型：标称型目标变量的结果只在有限目标集中取值，如真与假(标称型目标变量主要用于分类)
- 数值型：数值型目标变量则可以从无限的数值集合中取值 (数值型目标变量主要用于回归分析)

2.对于计算复杂度高、空间复杂度高，使用k决策树（KD-Tree）以节省开销。

0 0