机器学习笔记(1)K-近邻算法

来源:互联网 发布:怎么成为域名注册局 编辑:程序博客网 时间:2024/05/22 04:43

         关于K-近邻算法,首先说一下这个算法的作用,它是根据测量不同特征值之间的距离来作分类。

       原理:对于训练样本集,已经知道了样本集中每个数据的标签,即我们已经知道了样本集中的每一个数据所对应的类别。在输入没有标签的新数据后,将新数据的每个特征与样本集里面数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。通常,只选择样本数据集中前K个最相似的数据(通常K是<=20的整数),最后选择K个最相似数据中出现次数最多的分类,作为新数据的分类。


        K-近邻算法的一般流程:

        1、收集数据:可以使用任何方法;

        2、准备数据:距离计算所需要的数值(结构化的数据格式);

        3、分析数据:可以使用任何方法;

        4、训练算法:no need in KNN;

        5、测试算法:计算错误率;

        6、使用算法:首先需要输入样本数据和结构化的输出结果,然后运行K近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。

0 0
原创粉丝点击