图像识别学习笔记

来源:互联网 发布:彩虹6号优化补丁 编辑:程序博客网 时间:2024/06/01 20:53

激励函数sigmoid 对应交叉熵损失函数,因为梯度下降的快。推导思路:另损失函数对输出的倒数等于输出与期望输出的差,也就是正比于损失,损失越大,输出越大。然后,再做积分,就退出来交叉熵这个损失函数了。

激励函数是sotfmax,对应损失函数最好是log likehood。梯度下降也非常快。


道路检测:

灰度处理,先把颜色去掉,去的时候,可以根据颜色进行灰度加权。比如,红色更醒目,加的权重就更多。

高斯模糊处理,就是去掉毛刺,把不平滑的平滑掉。

边界点检测:从低灰度到高灰度再到低灰度,就是边界点。

线路等基本形状的识别:霍夫变换。y=wx+b,同一个线路上的w , b是相同的,他们转换到w b为坐标的空间应该是在一个点上。不过,用的是极坐标的形式,避免x = 0的情况。


一个图像里有多个图像类别的检测:


分两大类,一类是首选进行滑动窗口圈出不同的子区域,selectvie search,可以用等距离把大图像划分不同的子窗格,也可以用前面说的边缘检测划分不同的子窗格,再对不同的子窗格进行分类,相同类的子窗格可以进行合并。

另一类是不需要先划分,目标检测就是要找到一张图中所有的物体和它们的位置,在这两篇文章之前,人们通常的做法是先用一些传统视觉的方法如selective search找到proposal,即比较可能是物体的一个区域,然后再用CNN判断这个物体究竟是不是物体,是哪个物体,以及用CNN去优化这个框的位置,这种方法最典型的代表就是Faster-RCNN的前身,RCNN和Fast-RCNN,当然它们也是同样出色的工作。Faster-RCNN和YOLO解决的问题是省去了selective search,直接用CNN得到最后的结果,输入任意分辨率的图像,经过网络后就得到一个feature map,把这个feature map上的每一个点映射回原图,得到这些点的坐标,然后着这些点周围取一些提前设定好的区域,如选取每个点周围5x5的一个区域,这些选好的区域可以用来训练RPN。我个人认为SSD可以理解为multi-scale版本的RPN,它和RPN最大的不同在于RPN只是在最后的feature map上预测检测的结果,而最后一层的feature map往往都比较抽象,对于小物体不能很好地表达特征,而SSD允许从CNN各个level的feature map预测检测结果,这样就能很好地适应不同scale的物体,对于小物体可以由更底层的feature map做预测。

原创粉丝点击