k近邻模型

来源：互联网发布：淘宝上买药品不能付款编辑：程序博客网时间：2024/06/05 01:02

k近邻模型的三要素：距离的度量，k值的选取，分类决策规则的决定。

k近邻算法中，当训练数据集，k值，距离度量方式，分类决策规则确定后，对于任何一个新输入的实例，可以唯一确定其分类。根据上述要素将特征空间划分为许多子空间，并确定子空间里每个点所属的类。

特征空间中，对于每个训练实例点，距离该点比其他点更近的所有点组成了一个区域，叫单元(cell)。

每个训练实例点拥有一个单元，所有训练实例点的单元构成对特种空间的一个划分。

距离度量：特征空间中两个实例点的距离反映了两个实例点的相似程度。k近邻模型中的特征空间是n维实数向量空间。使用的距离可以为欧氏距离，Lp距离，minkowski距离。

由不同的距离所确定的最近邻点是不同的。

近似误差：Approximate Error=present approx - previous approx ，that`s how you get approximate error which I get, this is a way to get how much error you have negotiation, without having a knowledge of true values, because of you are not going to have true values in mathematical methods. https://www.youtube.com/watch?v=LAmSdDysmxg

k值的选择：如果k选取较小，近似误差小，估计误差大，模型整体变复杂，容易发生过拟合。k选大了，近似误差变大，估计误差小，整体模型变简单。

如果k=N，那么无论输入实例是什么，都将简单的预测它属于在训练实例中最多的类。模型过于简单，忽略了训练实例中大量有用的信息，是不可取的。

在应用中k一般取一个比较小的值，通常采用交叉验证法来选取最优的k值。

分类决策规则：

k近邻法的分类决策规则往往是多数表决，即由输入实例的k个近邻训练实例多数所属的类来决定。

0 0