机器学习实战:KNN算法

来源:互联网 发布:vb可执行文件的扩展名 编辑:程序博客网 时间:2024/06/13 09:23

机器学习实战:KNN算法
本章内容来至于《统计学习与方法》李航,《机器学习》周志华,以及《机器学习实战》Peter HarringTon,相互学习,不足之处请大家多多指教

1.1 KNN算法的优缺点
1.2 KNN算法的工作机制
1.3 KNN算法的python实现
1.4 我对KNN算法的理解

1.1 KNN算法的优缺点
优点:KNN算法是

1.2 KNN算法的工作机制
KNN算法,给定测试样本,基于某种距离度量找到训练集中最靠近的K个训练样本,然后基于这K个邻居的信息来进行预测,通常在分类任务重可以使用“投票法”,即选择这K个样本中出现最多的类别标记作为预测结果,在回归任务中可以使用平均分,将k个样本的实值输出标记的平均值作为预测值,或者是积极与距离远近进行加权平均或者加权投票,距离越近的样本权重越大。—–周志华 《机器学习P225页》
距离度量
K近邻模型中,K近邻的特征空间一般是n维的实数向量空间Rn,通常使用的是欧式距离,但是也可以使用其他的距离,如更一般的LP 距离或者曼哈顿距离,欧氏距离可以认为是LP 距离P等于2的情况
LP 距离的定义
设特征空间X是n维实数向量空间Rn,xi,xj 属于空间X,xi=