K 近邻算法 @ Python

来源:互联网 发布:幸运抽奖软件免费版 编辑:程序博客网 时间:2024/05/20 07:49

K 近邻算法

  • 原理 : 给定一个实例, 在训练集中找到与实例距离最近的 k 个训练数据, 这个实例的类别就是这 k 个训练数据的多数属于的类别
  • 三个要素 : 超参数 K 的选择, 距离计算方法, 最终的分类决策规则
  • 当 k = 1 的时候, 就是最近邻算法, 就是找距离最近的一个的实例的类别作为实例的分类
  • k 值的选择很重要, 如果说k 值太大, 会导致距离较远的训练实例对预测实例产生影响, 如果 k 值太小, 只有距离很近的 训练实例会对其产生影响, 但是对训练实例很敏感, 如果遇到噪声就会出错, 所以最近邻算法缺点很明显, 对训练集要求很高
  • K 值通常使用交叉验证的方法确定

下面给出 k 近邻算法的