k-近邻算法(kNN)

来源:互联网 发布:淘宝详情页视频时间 编辑:程序博客网 时间:2024/05/24 01:45

简单的说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。

原理:

存在一个样本数据集合,即训练样本集,并且样本集中每个数据都存在标签,。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,提取样本集中最相似数据的分类标签。一般来说,选择最相似数据集中前k个最相似的数据,通常k不大于20,最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

一般流程:

(1)收集数据:whatever

(2)准备数据:距离计算所需要的数值,最好是结构化的数据格式

(3)分析数据:whatever

(4)训练算法:无需训练

(5)测试算法:计算错误率

(6)使用算法:进行未知样本的分类


0 0