机器学习笔记（1）K-近邻算法

来源：互联网发布：怎么成为域名注册局编辑：程序博客网时间：2024/05/22 04:43

关于K-近邻算法，首先说一下这个算法的作用，它是根据测量不同特征值之间的距离来作分类。

原理：对于训练样本集，已经知道了样本集中每个数据的标签，即我们已经知道了样本集中的每一个数据所对应的类别。在输入没有标签的新数据后，将新数据的每个特征与样本集里面数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。通常，只选择样本数据集中前K个最相似的数据（通常K是<=20的整数），最后选择K个最相似数据中出现次数最多的分类，作为新数据的分类。

K-近邻算法的一般流程：

1、收集数据：可以使用任何方法；

2、准备数据：距离计算所需要的数值（结构化的数据格式）；

3、分析数据：可以使用任何方法；

4、训练算法：no need in KNN;

5、测试算法：计算错误率；

6、使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

0 0