KNN - 笔记(1)

来源：互联网发布：奥斯卡终身成就奖知乎编辑：程序博客网时间：2024/04/28 01:34

1 - 背景

KNN：k近邻，表示基于k个最近的邻居的一种机器学习方法。该方法原理简单，构造方便。且是一个非参数化模型。
KNN是一个“懒学习”方法，也就是其本身没有训练过程。只有在对测试集进行结果预测的时候才会产生计算。KNN在训练阶段，只是简单的将训练集放入内存而已。该模型可以看成是对当前的特征空间进行一个划分。当对测试集进行结果预测时，先找到与该测试样本最接近的K个训练集样本，然后基于当前是分类任务还是回归任务来做对应的处理。

KNN模型中有三个需要注意的地方：
1 - 距离度量的方法；
2 - K值的选择；
3 - 最后的判别决策规则。

如上面第三个，较为简单的判别决策规则为：
1）分类任务，那么找这K个训练集样本中出现次数最多的那个标签作为该测试样本标签，如下图：

图1.1 周老师西瓜书图10.1
2）回归任务，基于这K个训练集样本求均值，将其作为该测试集样本的结果。

不过KNN正是因为基于K个近邻进行测量的方法，所以其出问题也就在这里，因为该模型不适合作为高特征维度下的选择。因为它会遇到维数灾难的问题。举个例子，假如当前数据集是均匀分布在一个D维特征的空间中的，假设我们需要计算测试样本x周边一个区域上的类别标签密度，那么我们期望基于足够大的区域范围的数据才能得到合理的结果，那么对应的边界长度公式为：

e D (f) = f 1 / D

也就是假如维度为

D=10，我们想评估10%的类别标签密度，那么每个维度上所需长度为

e10(0.1)=0.8，也就是我们需要每个维度上80%的长度范围内的数据，即使我们只需要估计1%的标签密度，我们每个维度上的长度也是

e10(0.01)=0.63 。

图2.2 mlapp上图1.16（b）
当维度为2，且样本能够无限多，那么该模型表现才是最好的(Cover and Hart 1967)。所以按道理，高维数据其实不适合KNN[]

不过幸运的是， 有一个效应可以在一定程度上抵消维度灾难， 那就是所谓的“ 非均匀性的祝福”（blessing of nonuniformity） 。在大多数应用中， 样例在空间中并非均匀分布， 而是集中在一个低维流形manifold） 上面或附近。 这是因为数字图片的空间要远小于整个可能的空间。 学习器可以隐式地充分利用这个有效的更低维空间， 也可以显式地进行降维。[]

2 距离度量

KNN中最常用的方法就是欧式距离计算法，当然也有Lp距离和马氏距离等等。
假设样本的特征空间χ是n维实数的向量空间Rn，xi,xj∈χ,xi=(x(1)i,x(2)i,...,x(n)i),xj=(x(1)j,x(2)j,...,x(n)j),那么xi,xj的Lp距离定义为：

L (x i, x j) p = (\sum l = 1 n | x l i - x l j | p) 1 p

这里

p≥1,
当

p=2时，称为欧式距离；
当

p=1时，称为曼哈顿距离；
当

p=∞时，是各个坐标距离的最大值，即：

L \infty (x i, x j) = m a x l | x (l) i - x (l) j |

图2.1 李航统计学习方法图3.2
上图为在2维情况下到原点的距离为

Lp=1的点构成的范围图

3 K值选取

K值的选择会对KNN模型的结果产生重大影响。这就是一个模型选择问题。
模型选择：假设当前是一个KNN回归问题。现在是需要对点x0进行f^k(x0)拟合，假设该样本来自函数Y=f(X)+ϵ, 这里E(ϵ)=0, 且Var(ϵ)=σ2。为了简化问题，假设训练样本中xi的值是固定的，那么在测试样本点x0的期望预测误差也叫做测试或泛化误差，如：

E P E (x 0) k = = = E [(Y - f^k (x 0)) 2 | X = x 0] σ 2 + [B i a s 2 (f^k (x 0)) + V a r (f^k (x 0))] σ 2 + [f (x 0) - 1 k \sum l = 1 k f (x (l))] 2 + σ 2 k

第一项叫做不可避免的误差，是我们不可控制的，第二项和第三项是我们能够控制的，分别对应着模型的偏置和方差。偏置随着K变大而变大，方差随着K变大而变小。即K越大，模型越简单，K越小，模型越复杂：

图2.2 esl书上的图2.11

4 搜索优化

实现KNN模型时，主要考虑的还有个问题是如何对训练集的样本点进行快速的K近邻搜索。当特征空间维度太大，或者训练集样本点很多的时候特别重要。最基础的搜索方法就是线性搜索了，可想而知每个测试样本在比较时，都需要去计算一遍训练集的所有样本。效率着实不高。所以才需要量身定做的数据结构搜索方法。

4.1 - KD树

KD树是一种对K维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。KD树是二叉树，表现为对K维空间的一个划分，构造kd树相当于不断的用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域。kd树的每个节点最后对应于一个k维超矩形区域。kd树搜索的平均计算复杂度是O(logN)，不过kd树更适合于训练样本远大于特征维度时的knn搜索，当特征维度接近训练样本量时，几乎接近线性扫描。

1 - 构造过程

构造过程;假设训练集一共n个样本点，每个样本点特征维度都是k。
1）构造根节点：先计算所有样本第1维组成的向量的中位数。然后将该中位数表示的样本作为根节点r0；将该维度上小于中位数的样本点划分到左子树RL；大于该中位数的样本点划分到右子树RR；
2）构造后续节点：对于步骤1）划分到左子树的所有样本点，按照它们第2维度找中位数，并将中位数对应的样本作为该子树的根节点r1l，将小于该中位数的样本点划分到该子树对应的左子树，大于的划分到该子树对应的右子树；
通过不断的找中位数表示的样本，不断的对k维空间进行分割，直到两边子树只剩下一个样本作为叶子节点。这样的kd树是平衡的，不过却不一定是最优的。

ps:（1）当划分层数太深，而维度不够用时，从头开始，即从第1维接着开始；（2）树的每个节点都对应一个样本。

拿《统计学习方法》例3.2来说，假设训练集样本有{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}
第0层根节点,找第1维中位数对应样本点:[2,4,5,7,8,9],中位数从[5,7]中挑中7，得当前根节点为(7,2)，分得左子树{(2,3),(4,7),(5,4)};右子树{(8,1),(9,6)}
第1层根节点，找第2维中位数对应样本点:左子树：[3,4,7]-4；右子树[1,6]-6。分得第1层
左子树{(2,3)}【(5,4)】{(4,7)};右子树{(8,1)}【(9,6)】
第2层，因为第一层分割后只剩下每个根节点对应的左右子树都只有一个样本，作为叶子节点，所以无需再分，结果如下图:

图4.1.1 统计学习方法上图3.4
2 - 搜索过程
在基于上面构造好kd树之后，当来了一个测试样本，考虑的就是该如何找到它对应的最近邻样本。
步骤：
1 - 按照训练好的kd树，从第1维开始不断的按照之前的训练过程对比下去，找到对应的叶子节点，如当前测试样本点为(3,4)，3<7 =>(5,4); (4==4)，因为(5,4)不是叶子节点，接着往下；2<3 且3<4，挑一个叶子节点(2,3)。
2 -
这里写图片描述

4.2 - Ball树

(待续)
参考资料：
[] Machine Learning A Probabilistic Perspective
[] 李航，统计学习方法
[] The Elements of Statistical Learning Data Mining, Inference, and Prediction (Second Edition)
[] Pedro Domingos,A Few Useful Things to Know About Machine Learning

0 0