kd-tree和K近邻

来源:互联网 发布:idea web sql 编辑:程序博客网 时间:2024/05/18 23:28

KNN,K近邻算法

K Nearest Neighbor算法,就是找K个最近的邻居,当K=1时,退化成找最近的那个邻居。(Supervoxel的k-means聚类过程中就是找最近的一个点加标为该类,再更新中心点。)

它最简单的在分类上的应用,是这样描述的:以二分类为例,要判断某点属于哪类,先找到这点附近最近的k点,用这k个点投票决定待判定点属于哪类,如果多数都投A类,那么待判定点被判为A类,反之B类。

K值的选择

K值的选择很关键,不能过大,不能过小,一般用交叉验证法:选取一部分做训练集,一部分做测试集来选取最优的K值。

过小的话:相当于用较小部分的数据做训练集,只有在输入数据离训练集很接近的情况才能比较符合预测的分类;
优点:“学习”近似误差会减小;
缺点:“学习”的估计误差会增大,整体模型变复杂,容易发生过拟合

过大的话:
优点:“学习”的估计误差减小;
缺点:“学习”的近似误差会增大,整体模型变简单。

KD树——k近邻算法的实现

    Kd-树是K-dimension tree的缩写,是多维二叉搜索树,是为了在多维数据中搜索在一个区域(与查询点数据距离小于某阈值)的数据或搜索某目标数据的K个邻近。(范围搜索和最近邻搜索)

     每个节点即为一个k维的点。每个非叶节点可以想象为一个分割超平面,用垂直于坐标轴的超平面将空间分为两个部分,这样递归的从根节点不停的划分,直到没有实例为止。

1975年,来自斯坦福大学的Jon Louis Bentley在ACM杂志上发表的一篇论文:Multidimensional Binary Search Trees Used for Associative Searching 中正式提出和阐述的了如下图形式的把空间划分为多个部分的k-d树。


3D上使用kd-tree

所有数据都是三维的,构建的k-d树就是3-d tree,树的每层都是按某一维度来划分的,比如根节点之下的第一层都是按x轴的大小划分,如果比根节点的x值小,放在左子树上;若比根节点x值大,放在右子树上。
通常用类似快排的Partition思想,每次把中值放在当前根节点,比根节点i轴值小的放在左子树,大的放在右子树。下一层按照y轴Partition,再下一层按照z轴Partition。逐层递归构建左右子树直到只剩一个节点。

They most efficient way to build a k-d tree is to use a partition method like the one Quick Sort uses to place the median point at the root and everything with a smaller one dimensional value to the left and larger to the right. 

近邻的几种距离表示法

这里谈到距离度量是为了判定之前所说的谁比较近的问题。
(1)欧氏距离:我们常用的直线距离,坐标差平方和开方;
        向量表示方法:
                
(2)曼哈顿距离:在街区的一个十字路口驶向另一个十字路口的驾驶距离。两点在坐标系方向的投影的距离和。
(1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离 
(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离 

                          

(3)标准化欧氏距离(Standardized Euclidean Distance)
     标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。至于均值和方差标准化到多少,先复习点统计学知识。

    假设样本集X的数学期望或均值(mean)为m,标准差(standard deviation,方差开根)为s,那么X的“标准化变量”X*表示为:(X-m)/s,而且标准化变量的数学期望为0,方差为1。
     即,样本集的标准化过程(standardization)用公式描述就是:
     
     标准化后的值 =  ( 标准化前的值  - 分量的均值 ) /分量的标准差  
     经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的标准化欧氏距离的公式:  
     
     如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。 

(4)夹角余弦——向量方向的差异性

两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦

     

值越大表示夹角越小,差异性越小;反之差异越大。



Reference

K近邻算法的实现--KD树,和KD树的插入,删除,最近邻查找等操作,及KD树的一系列相关改进(包括BBF,M树等)
http://blog.csdn.net/v_july_v/article/details/8203674/
3D上使用kd-tree http://pointclouds.org/documentation/tutorials/kdtree_search.php#kdtree-search
                  API:http://docs.pointclouds.org/trunk/group__kdtree.html

0 0