《统计学习方法》笔记(四)--k近邻法

来源:互联网 发布:dnf每隔几分钟网络中断 编辑:程序博客网 时间:2024/05/22 07:47

K-nearest neighbor

可以用来解决分类问题与回归问题

是一种判别式模型

三要素:k值的选择、距离度量及分类决策规则。

基本思路:给定一个训练集合,当测试数据到来时,根据某种距离度量找到与其最邻近的k个实例,这k个实例中的大多数属于哪个类别,那么测试数据就被归类于哪个类别。

1.模型:关于特征空间的一个划分。

距离度量:欧式距离,LP距离,马氏距离。。。

k值选择:k值过小,近似误差会减小,估计误差会增大,整体模型更加复杂,易于过拟合

              k值过大,简化模型但会使近似误差增大,会忽略有用信息

分类决策:多少表决(其理论实质是经验风险最小化)

2.实现

kd树

目的:使得近邻搜索更快

实质:是一种优于线性扫描的存储结构

通常做法是依次选取坐标轴对空间切分,以中位数为切分点,也有的时候先统计数据在每个维度上的方差,取最大的方向切分

算法分为构造KD树,和搜索KD树两部分

 

0 0
原创粉丝点击