图像分类器(KNN)

来源：互联网发布：贪玩蓝月转生数据编辑：程序博客网时间：2024/05/17 15:18

分类过程和数据集

分类过程：
这里写图片描述
数据集：
CIFAR数据库（50000训练图像，10000测试图像，10 labels）

KNN

KNN最邻近规则，主要应用领域是对未知事物的识别，即判断未知事物属于哪一类，判断思想是，基于欧几里得定理，判断未知事物的特征和哪一类已知事物的的特征最接近；
K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

距离测量：
这里写图片描述

KNN实现过程

1：
这里写图片描述
2：记忆训练数据

对于每个测试图像：
- 找到最近的列车图像与L1距离
- 预测最近的训练图像的标签

3：距离的选择是一个超参数的常见选择

4：找到k个最近的图像，让他们为标签投票

5：尝试什么超参数在测试集上最好。
线经过平均值，柱表示标准偏差
这里写图片描述
什么是最好的距离使用？ k的最佳使用价值是多少？我们如何设置超参数？
Seems that k ~= 7 works best for this data

KNN缺陷

1、测试时候的糟糕的性能
2、在整个图像的水平上的距离度量可以是非常不直观的
这里写图片描述
这几幅图像的L2距离全部都是相同的。

总结

图像分类：我们给出一个标记图像的训练集，要求预测测试集上的标签。共同报告预测的精度（正确预测图像的分数）
- 我们介绍了k-最近邻分类器，其基于训练集中最近的图像来预测标签
- 我们看到距离和k的值的选择使用验证集调整的超参数，或者如果数据的大小较小，则通过交叉验证。
- 一旦选择了最佳的超参数集合，分类器在测试集上被评估一次，并且被报告为对该数据的kNN的性能。

0 0