《统计学习方法》笔记（四）--k近邻法

来源：互联网发布：dnf每隔几分钟网络中断编辑：程序博客网时间：2024/05/22 07:47

K-nearest neighbor

可以用来解决分类问题与回归问题

是一种判别式模型

三要素：k值的选择、距离度量及分类决策规则。

基本思路：给定一个训练集合，当测试数据到来时，根据某种距离度量找到与其最邻近的k个实例，这k个实例中的大多数属于哪个类别，那么测试数据就被归类于哪个类别。

1.模型：关于特征空间的一个划分。

距离度量：欧式距离，LP距离，马氏距离。。。

k值选择：k值过小，近似误差会减小，估计误差会增大，整体模型更加复杂，易于过拟合

k值过大，简化模型但会使近似误差增大，会忽略有用信息

分类决策：多少表决（其理论实质是经验风险最小化）

2.实现

kd树

目的：使得近邻搜索更快

实质：是一种优于线性扫描的存储结构

通常做法是依次选取坐标轴对空间切分，以中位数为切分点，也有的时候先统计数据在每个维度上的方差，取最大的方向切分

算法分为构造KD树，和搜索KD树两部分

0 0