图像识别学习笔记

来源：互联网发布：彩虹6号优化补丁编辑：程序博客网时间：2024/06/01 20:53

激励函数sigmoid 对应交叉熵损失函数，因为梯度下降的快。推导思路：另损失函数对输出的倒数等于输出与期望输出的差，也就是正比于损失，损失越大，输出越大。然后，再做积分，就退出来交叉熵这个损失函数了。

激励函数是sotfmax，对应损失函数最好是log likehood。梯度下降也非常快。

道路检测：

灰度处理，先把颜色去掉，去的时候，可以根据颜色进行灰度加权。比如，红色更醒目，加的权重就更多。

高斯模糊处理，就是去掉毛刺，把不平滑的平滑掉。

边界点检测：从低灰度到高灰度再到低灰度，就是边界点。

线路等基本形状的识别：霍夫变换。y=wx+b，同一个线路上的w , b是相同的，他们转换到w b为坐标的空间应该是在一个点上。不过，用的是极坐标的形式，避免x = 0的情况。

一个图像里有多个图像类别的检测：

分两大类，一类是首选进行滑动窗口圈出不同的子区域，selectvie search，可以用等距离把大图像划分不同的子窗格，也可以用前面说的边缘检测划分不同的子窗格，再对不同的子窗格进行分类，相同类的子窗格可以进行合并。

另一类是不需要先划分，目标检测就是要找到一张图中所有的物体和它们的位置，在这两篇文章之前，人们通常的做法是先用一些传统视觉的方法如selective search找到proposal，即比较可能是物体的一个区域，然后再用CNN判断这个物体究竟是不是物体，是哪个物体，以及用CNN去优化这个框的位置，这种方法最典型的代表就是Faster-RCNN的前身，RCNN和Fast-RCNN，当然它们也是同样出色的工作。Faster-RCNN和YOLO解决的问题是省去了selective search，直接用CNN得到最后的结果，输入任意分辨率的图像，经过网络后就得到一个feature map，把这个feature map上的每一个点映射回原图，得到这些点的坐标，然后着这些点周围取一些提前设定好的区域，如选取每个点周围5x5的一个区域，这些选好的区域可以用来训练RPN。我个人认为SSD可以理解为multi-scale版本的RPN，它和RPN最大的不同在于RPN只是在最后的feature map上预测检测的结果，而最后一层的feature map往往都比较抽象，对于小物体不能很好地表达特征，而SSD允许从CNN各个level的feature map预测检测结果，这样就能很好地适应不同scale的物体，对于小物体可以由更底层的feature map做预测。

阅读全文

0 0