《李航:统计学习方法》--- K近邻算法实现: kd 树
来源:互联网 发布:重返北上广 知乎 编辑:程序博客网 时间:2024/06/08 13:35
K近邻法最简单的实现方法是线性扫描,当训练集很大时,这种方法计算非常耗时,是不可行的.为了提高K近邻搜索的效率,我们使用kd树.
构造kd树
kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树型数据结构.kd树是二叉树,表示对k维空间的一个划分.
构造kd 树的方法如下:构造根结点,使根结点对应于K维空间中包含所有实例点的超矩形区域;通过下面的递归的方法,不断地对k维空间进行切分,生成子结点。在超矩形区域上选择一个坐标轴和在此坐标轴上的一个切分点,确定一个超平面,这个超平面通过选定的切分点并垂直于选定的坐标轴,将当前超矩形区域切分为左右两个子区域(子结点);这时,实例被分到两个子区域,这个过程直到子区域内没有实例时终止(终止时的结点为叶结点)。在此过程中,将实例保存在相应的结点上。
通常,循环的选择坐标轴对空间切分,选择训练实例点在坐标轴上的中位数为切分点,这样得到的kd树是平衡的(平衡二叉树:它是一棵空树,或其左子树和右子树的深度之差的绝对值不超过1,且它的左子树和右子树都是平衡二叉树.
构造平衡kd树算法:
输入:k维空间数据集
其中
输出:kd树
(1)开始:构造根结点,根结点对应于包含
选择
将落在切分超平面上的实例点保存在根结点。
(2)重复。对深度为j的结点,选择
由该结点生成深度为j+1的左、右子结点:左子结点对应坐标
将落在切分超平面上的实例点保存在该结点。
(3)直到两个子区域没有实例存在时停止,从而形成kd 树的区域划分.
用kd树的最近邻搜索:
输入:已构造的kd树;目标点x;
输出:x的最近邻。
(1)在kd树中找出包含目标点x的叶结点:从根结点出发,递归的向下访问kd树。若目标点当前维的坐标值小于切分点的坐标值,则移动到左子结点,否则移动到右子结点。直到子结点为叶结点为止;
(2)以此叶结点为”当前最近点”;
(3)递归的向上回退,在每个结点进行以下操作:
(a) 如果该结点保存的实例点比当前最近点距目标点更近,则以该实例点为”当前最近点”;
(b)当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一个子结点对应的区域是否有更近的点。具体的,检查另一个子结点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。如果相交,可能在另一个子结点对应的区域内存在距离目标更近的点,移动到另一个子结点。接着,递归的进行最近邻搜索。如果不相交,向上回退。
(4)当回退到根结点时,搜索结束。最后的”当前最近点”即为xx的最近邻点。
kd树的创建与最近邻搜索的c++ 实现
#include <iostream>#include <vector>#include <algorithm>using namespace std;struct Node{ vector<int> data; int dim_node; Node *left; Node *right;};//数据维度及数据总数int dim, n;//排序时使用的维度int dim_cmp;//最近点Node *nearest;//距离int dis = -1;//读数据void readData(vector<vector<int> > &datas){ cout << "数据的总数 : "; cin >> n; cout << "数据的维度 : "; cin >> dim; cout << "输入数据 : " << endl; for(int i = 0; i < n; i++) { vector<int> data; int tmp; for(int j = 0; j < dim; j++) { cin >> tmp; data.push_back(tmp); } datas.push_back(data); }}//自定义排序比较函数bool cmp(vector<int> &a, vector<int> &b){ return a[dim_cmp] < b[dim_cmp];}//创建kd树Node *createKDTree(vector<vector<int> > datas, int l){ if(datas.empty()) return NULL; Node *node = new Node; vector<vector<int> > left_datas; vector<vector<int> > right_datas; dim_cmp = l; sort(datas.begin(), datas.end(), cmp); int m = datas.size() / 2; node->data = datas[m]; node->dim_node = l; for(int i = 0; i < datas.size(); i++) { if(i < m) left_datas.push_back(datas[i]); else if(i > m) right_datas.push_back(datas[i]); else continue; } node->left = createKDTree(left_datas, (l+1)%dim); node->right = createKDTree(right_datas, (l+1)%dim); return node;}//计算距离.使用距离的平方int calculDist(Node *node, vector<int> &target){ int tmp = 0; for(int i = 0; i < dim; i++) tmp += (node->data[i]-target[i])*(node->data[i]-target[i]); return tmp;}//最近邻搜索void searchNN(Node *node, vector<int> &target){ if(node == NULL) return; if(node->left == NULL && node->right == NULL) { if(dis < 0) { nearest = node; dis = calculDist(node, target); return; } } if(target[node->dim_node] < node->data[node->dim_node]) { searchNN(node->left, target); int tmp = calculDist(node, target); if(tmp < dis) { nearest = node; dis = tmp; } tmp = (target[node->dim_node] - node->data[node->dim_node]) * (target[node->dim_node] - node->data[node->dim_node]); if(tmp < dis) { searchNN(node->right, target); } } else { searchNN(node->right, target); int tmp = calculDist(node, target); if(tmp < dis) { nearest = node; dis = tmp; } tmp = (target[node->dim_node] - node->data[node->dim_node]) * (target[node->dim_node] - node->data[node->dim_node]); if(tmp < dis) { searchNN(node->left, target); } }}int main(){ vector<vector<int> > datas; vector<int> target; readData(datas); Node *tree = createKDTree(datas, 0); cout << "输入目标点 : " << endl; for(int i = 0; i < dim; i++) { int tmp; cin >> tmp; target.push_back(tmp); } searchNN(tree, target); for(int i = 0; i < nearest->data.size(); i++) cout << nearest->data[i] << " "; cout << endl; return 0;}
- 《李航:统计学习方法》--- K近邻算法实现: kd 树
- 统计学习方法----k近邻法的实现:kd树
- 《统计学习方法》k近邻 kd树的python实现
- k近邻算法的实现:kd树
- k近邻算法的实现:kd树
- 统计学习方法笔记(3)——k近邻法与kd树
- 统计学习方法笔记(3)——k近邻法与kd树
- K 近邻算法(KNN)与KD 树实现
- k近邻算法的kd树实现原理
- 机器学习—K近邻,KD树算法python实现
- 《统计学习方法,李航》:3、k临近法与kd树
- 《李航:统计学习方法》--- K近邻算法(KNN)原理与简单实现
- 统计学习方法--K近邻法 python实现
- K近邻算法及kd树简介
- k-近邻算法与kd树优化
- K近邻解析 统计学习方法 李航
- k近邻法的实现:kd树
- k近邻法的实现:kd树
- Android系列之SQLite与Android Studio的数据交互
- 详解JDK 5 Annotation 注解之@Target的用法介绍
- 网络中是通过硬件地址找到目的主机的,那为什么还要有IP地址呢?
- android小笔记
- 对于SQL中COUNT(1)和COUNT(*)执行效率上的误解
- 《李航:统计学习方法》--- K近邻算法实现: kd 树
- Servlet基础笔记_17-07-04
- Exact 4SAT问题是NP完全的证明
- 将css放在头部,js放在尾部可以优化页面???
- GO学习系列:单例
- js背景图自适应
- JRE System Library Problem J2SE-1.5问题
- java 几种保留小数位数的方法性能比较
- C/C++之回调函数详解