机器学习笔记1 - k近邻法
来源:互联网 发布:linux 自动运行脚本 编辑:程序博客网 时间:2024/06/05 04:29
Table of Contents
- 1 概念
- 1.1 k值的选择
- 1.2 距离量度方法
- 1.3 如何确定分类
- 2 kNN的实现
- 2.1 线性扫描
- 2.2 k-d树
- 2.2.1 kd树构建
- 2.2.2 添加元素
- 2.2.3 删除元素
- 2.2.4 kd树查找
- 3 已有工具库
- 3.1 R: FNN包
- 3.2 其它工具库
1 概念
k近邻法(k nearest neighbor, k-NN)是一种基本的分类和回归方法,简单、直观。当用来分类时,给定一个训练集,对于新输入实例,找到最近的k个训练样例,然后根据训练样例确定新样例的分类。
从这里可以看出,kNN有几大要素:
- k的选择
- 距离量度方法
- 如何确定分类
1.1 k值的选择
选择的k值越小,模型负责度越高,容易发生过拟合。可以这样直观的理解:设想极端情况,k=1。新输入样例的分类就取决于最近的训练馆样例。如果恰好遇到噪音,那么就完全错误了。
随着k值正大,模型泛化能力也增大,但丢失的信息也增多。设想k=N,那么任意新输入样例的分类就等于训练样例中实例数最多的分类。
实践中,先选择一个较小的k值,然后通过交叉验证的方法找到最优值。
1.2 距离量度方法
主要用Lp系列函数作为量度方法:
当p=1时,称为曼哈顿距离(Manhattan distance),即:
1.3 如何确定分类
ok,假设现在已经找到了k个近邻的点。最直观的确定分类的方法就是"多数表决"。把新实例分到k个点所属分类最多的类。
2 kNN的实现
2.1 线性扫描
线性扫描(linear scan)是最简单粗暴的kNN算法。每次扫描所有点,计算和新实例的距离,然后找出最近的k个点。假设n个样本点,m个新实例,复杂度为
2.2 k-d树
kNN的本质是对特征空间的划分,kd树的思想就是用线段树来表示这种划分,使得搜索效率提高为
下图为直观的k-d树对特征空间的划分。1
k-d树
2.2.1 kd树构建
构建过程简单来说就是辗转用特征向量的每一维的中位数切分特征空间。python代码如下1:
class Node: passdef kdtree(point_list, depth=0): if not point_list: return None # Select axis based on depth so that axis cycles through all valid values k = len(point_list[0]) # assumes all points have the same dimension axis = depth % k # Sort point list and choose median as pivot element point_list.sort(key=lambda point: point[axis]) median = len(point_list) // 2 # choose median # Create node and construct subtrees node = Node() node.location = point_list[median] node.left_child = kdtree(point_list[:median], depth + 1) node.right_child = kdtree(point_list[median + 1:], depth + 1) return node
2.2.2 添加元素
和建树过程类似,从根节点开始,辗转用某维特征和原节点比较。整个过程和一般的搜索数插入节点类似。
2.2.3 删除元素
最简单的方法是将待删除节点的所有叶子节点重新建树。
2.2.4 kd树查找
因为树已经将空间进行了划分。查找变得很简单。只需要从root节点出发,查找新节点地"插入位置"。沿途将"空间划分点"入栈。找到插入位置后,依次弹出栈,计算距离,找到距离最短的k个节点。
3 已有工具库
3.1 R: FNN包
R的FNN包(Fast Nearest Neighbour)提供了几种kNN算法。使用方法举例:
- 准备训练样例:
> m <- matrix(c(2,5,9,4,8,7,3,4,6,7,1,2), nrow=6, ncol=2)
- 准备输入实例:
> q <- matrix(c(9,6), nrow=1, ncol=2)
- 得到kNN结果
> get.knnx(m, q, k=6, "kd_tree")$nn.index [,1] [,2] [,3] [,4] [,5] [,6][1,] 3 6 2 5 4 1$nn.dist [,1] [,2] [,3] [,4] [,5] [,6][1,] 0 4.472136 4.472136 5.09902 5.09902 7.615773
$nn.index是按照距离远近排序地训练样例下标,可以看到下标1,也就是{9, 6}和输入样例{9, 6}距离最近。$nn.dist为欧式距离列表。
更多FNN包的介绍请参考说明文档:http://cran.r-project.org/web/packages/FNN/FNN.pdf
3.2 其它工具库
此外还有很多kNN的工具库:
- libkdtree++:http://libkdtree.alioth.debian.org/
- ANN:http://www.cs.umd.edu/~mount/ANN/
Footnotes:
1 Wikipedia, K-d tree, http://en.wikipedia.org/wiki/K-d_tree
- 机器学习笔记1 - k近邻法
- 机器学习1k近邻
- 《机器学习实战》学习笔记之k-近邻算法1
- 机器学习笔记(3)——K近邻法
- 机器学习笔记(1)K-近邻算法
- 【机器学习实战】笔记1-K近邻算法
- 机器学习实战笔记(1)——k-近邻算法
- 机器学习实战笔记(1)——k-近邻算法
- 机器学习实战笔记(1)——k-近邻算法
- 机器学习笔记1-k近邻算法的实现
- 机器学习实战笔记(1)-K近邻算法
- 机器学习笔记(1)-KNN(K-近邻算法)
- 机器学习笔记之K近邻算法
- 机器学习实战笔记 K近邻算法
- 机器学习实战笔记:K近邻算法
- 机器学习实战笔记 k-近邻算法
- 【机器学习】k-近邻算法笔记
- 机器学习笔记:K-最近邻算法
- 进行GUI的m文件的编辑窗口运行完全正常,在其的.fig运行时程序会报错
- 移植RIL让Android平板支持3G Modem电话功能
- org.apache.hadoop.hive.metastore.api.InvalidOperationException cannot be cast to java.lang.RuntimeEx
- WebSphere 多个应用间的单点登录配置,SSO
- IOS中的事件通知
- 机器学习笔记1 - k近邻法
- Android OpenGL 学习笔记 --开始篇
- JAVA获取随机数
- D类功放原理
- kernle下制作动态logo
- 今天写代码是,遇到了 span无法设置宽度的问题
- 时间格式化输出SimpleDateFormat
- 机器学习笔记2 - 朴素贝叶斯法
- eclipse 下找不到或无法加载主类的解决办法