CS231n系列之 Lecture1：Introduction

来源：互联网发布：诺基亚手机解锁软件编辑：程序博客网时间：2024/06/04 19:53

    实验室老师的要求，是要自己学习斯坦福大学的CS231n的课程，所以，准备做一系列用以记录自己学习的过程。下面的链接是第一节课的视频，ppt，以及字幕，但是字幕比较不好，很多错误，时间关系也就不进行更正了。
链接: https://pan.baidu.com/s/1c1DL9r6 密码: b3xf
链接: https://pan.baidu.com/s/1mhZPS6k 密码: n3wx
链接: https://pan.baidu.com/s/1jI9LRnC 密码: 9vmw
    LZ可能接触时间比较短，讲的也比较浅显，如果又不对的地方请大家批评指正。
    这节算是比较简单，是由Fei-Fei Li主讲的，简直是计算机视觉的一个大神。
    后面的课程就是由Andrej & Justin讲课了。
    我们现在是个信息大爆炸的时代，我们现在由很多传感器，如手机，数码照相机，这些也产生了很多视觉数据。在原视频中讲到看dark matter，小白的我还刻意去百度了一下，就像是在宇宙中的黑暗物质，有些非常重要的能量我们是无法观测到的，但我们是可以通过数学方法进行推测的，好像有行星就是通过数学方法推测到的（海王星？），但是在网络中这是很困难的。Youtub的视频上传量是150h/min，大的吓人，所以有数据集就是从Youtub上整理出来的。人估计是来不及浏览了。。。
    我们现在遇到的问题就是大量的数据。计算机视觉涉及很多的领域：生物工程，物理，数学，计算机科学，机器人之类很多，所以计算机视觉是和其它很多领域有交叉的一门学科吧。现在也有特别火的机器学习，深度学习。。。
    感觉国外老师上课会讲很多背景知识，在国内感觉会直接省略，只讲主题。。。课上放了一张进化大爆炸的图片，主要是讲寒武纪生命大爆炸（cambrian period），从单细胞生物和简单的多细胞群体爆发式的产生了各种各样的生物，也就在短短的2000万年，在后的5亿多年生物进化中一个门都没有再出现，而现在，好多动植物又濒临灭绝。。。
    最开始的照相机不叫照相机，叫照相暗盒，也是最原始的相机，利用的也是比较简单的小孔成像模型。之后也就出现的胶卷，例如已经倒闭的柯达。这主要就是做一个拷贝，并不会识别图片。
    在生物学方面，1959年，Hubel和Wiesel合写的“视觉皮层的早期研究”中详细描述了发现视觉皮层的简单细胞，复杂细胞，超复杂细胞的经过，及以后舍弃“超复杂”，改用“末端停止”的理由；视觉剥夺实验；17区以远脑区的复杂功能等等。因此，他们也获得了诺贝尔生理或医学奖得主。
    块状世界，是计算机视觉的开始，由Larry Roberts在1963年PHD论文中写到的，这主要记录了光度，方向还有边缘信息。
    1996年MIT的计算机视觉项目成立。在1970s, David Marr写了一本书叫VISION，他把图片分成像素，边缘信息图片，表面的方向和不连续的深度，3D模型。
    1979年，Brooks & Binford提出了广义圆柱体模型。1973年，Fischler & Elschlager提出了图案结构模型。1987年，David Lowe提出了简单的边缘和简单的形状表示。1997年，终于到了彩色图片，Shi & Malik 提出了归一化分割，把相同的像素组合在一起。2001年，Viola & Jones 把人脸检测做到了实时，提出了简单的黑白滤波器提取特征。1999年，David Lowe提出了SIFT特征。因为对于人来说，很难对整幅图进行理解，对于机器更难，所以提取特征就可以通过对一些简单特征的识别，就可以理解并建立模型，这也大大加快了图像识别的速度。2006年, Lazebnik, Schmid & Ponce提出了空间金字塔匹配模型。2005年， Dala & Triggs提出了HoG(Histogram of Gradients)。2009年，Felzenswalb, McAllester,Ramanan提出来Deformable Part Model。
    针对这么多提出的模型，如果没有一个统一的评价指标是没有办法来确定方法的好坏的。所以，提出了benchmark，在PASCAL Visual Object Challenge中由20类的目标检测，随着时间的推移，识别的准确率越来越高。但是在现实社会中，我们所遇到的目标远远不止这20类，这就促使IMAGENET的诞生，超过22K的类别，和14M的图片，想想工程量就很大。是个非常有名的数据集哦！
    这个比赛是从2010年开始的，可以从PPT中看出，每一年的错误率都在下降。但是在2012年，错误率几乎下降了10%，赢得这次比赛的结构就是使用卷积神经网络的。值得一提的是卷积神经网络并不是在2012年产生的。
    本课程主要注重的是视觉识别中的图片分类这一项。但视觉识别并不仅仅指图片分类这一项。在视觉识别中还有很多问题是和图像分类有关的，例如目标检测，图像感知等等。卷积神经网络已经在目标识别中扮演了一个非常重要的角色。
    2010年，NEC-UIUC, 2012年，SuperVision，2014年 GoogleNet, VGG, 2015年，MSRA ResNet。
    卷积神经网络不是一夜发明的。
    卷积神经网络的发展也依赖于硬件的发展，更高效的CPU和计算能力超强的GPU。
    第一节课差不多了，如果有兴趣可以把我分享的视频和PPT瞅一下哦！哈哈O(∩_∩)O

0 0