k近邻模型

来源:互联网 发布:淘宝上买药品不能付款 编辑:程序博客网 时间:2024/06/05 01:02

k近邻模型的三要素:距离的度量,k值的选取,分类决策规则的决定。

k近邻算法中,当训练数据集,k值,距离度量方式,分类决策规则确定后,对于任何一个新输入的实例,可以唯一确定其分类。根据上述要素将特征空间划分为许多子空间,并确定子空间里每个点所属的类。

特征空间中,对于每个训练实例点,距离该点比其他点更近的所有点组成了一个区域,叫单元(cell)。

每个训练实例点拥有一个单元,所有训练实例点的单元构成对特种空间的一个划分。

距离度量:特征空间中两个实例点的距离反映了两个实例点的相似程度。k近邻模型中的特征空间是n维实数向量空间。使用的距离可以为欧氏距离,Lp距离,minkowski距离。

由不同的距离所确定的最近邻点是不同的。


近似误差:Approximate Error=present approx - previous approx  ,that`s how you get approximate error which I get, this is a way to get how much error you have negotiation, without having a knowledge of true values, because of you are not going to have true values in mathematical methods. https://www.youtube.com/watch?v=LAmSdDysmxg


k值的选择:如果k选取较小,近似误差小,估计误差大,模型整体变复杂,容易发生过拟合。k选大了,近似误差变大,估计误差小,整体模型变简单。

如果k=N,那么无论输入实例是什么,都将简单的预测它属于在训练实例中最多的类。模型过于简单,忽略了训练实例中大量有用的信息,是不可取的。

在应用中k一般取一个比较小的值,通常采用交叉验证法来选取最优的k值。


分类决策规则:

k近邻法的分类决策规则往往是多数表决,即由输入实例的k个近邻训练实例多数所属的类来决定。




0 0
原创粉丝点击