统计学习方法读书笔记--3.K近邻法

来源:互联网 发布:redist linux 编辑:程序博客网 时间:2024/05/20 16:43

定义

  • 求与向量x距离最近的k个向量,将多数向量的类别作为x的类别;
  • 分类,回归;

    三要素

  • 距离度量
  • k值的选择
  • 分类决策规则

距离度量

  • Lp距离
  • Minkowski距离
  • 欧氏距离;

Lp定义

Lp(xi,xj)=(l=1nx(l)ix(l)jp)1p

  • p=2时为欧氏距离,平面距离;
  • p=1时为曼哈顿距离,差的绝对值;
  • p= ,它是各个坐标距离的最大值,即:

L(xi,xj)=maxlx(l)ix(l)j

K值的选择

  • k值较小,近似误差小,估计误差大,容易发生过拟合;
  • k值较大,近似误差大,估计误差小,不相似的实例也会对预测起到作用,是预测发生错误;模型变得简单;
  • 实际应用:k取比较小的值,通过交叉验证来选择最优的k

分类决策规划

  • 多数表决规则;

实现-kd

  • 多维空间分割树,KD树

KD树在POI中的应用

  • 通过KD树,快速找到与用户最近的k个商家;
  • 查到用户指定距离中的POI;

其他

  • R树,
  • BallTree;
0 0