CS231n winter 2016 学习笔记lecture 1

来源：互联网发布：python snmp cisco 编辑：程序博客网时间：2024/06/07 16:24

今天刚刚开始自学CS231n的相关内容，在此也想把每一次的一些体会和想法记录下来与大家分享交流，互相进步。当然想法中可能有出现错误或者偏差，希望大家能够包容指正，我的邮箱是895849256@qq.com。

lecture1的主要内容是是对计算机视觉发展史的简介和对现况的一个概论。Fei-Fei Li教授以寒武纪生命大爆发开头讲述了视觉的重要性，之后又通过Hubel&Wiesel在1959年的研究引出了视神经观测物体时是对一些简单的边缘产生响应信号。David Marr又提出了一个新的重要观点，即视觉识别是分层进行的。基于此，1979年Brooks&Binford提出了Generalized Cylinder，主要思想是世界由一些基本立体图形不断组合而成，1973年Fischler和Elschlager提出了更偏向概率说法的Pictorial Structure。1997年Shi&Malik开始第一次处理彩色图片，尝试将图片分割成有意义的几部分。之后，视觉领域的研究偏向了图像识别方面，主要采用设计特征并结合SVM的方法来进行各类图像的识别和分类。早期的PACSAL Visual Object Challenge拥有20个类别的图像，吸引了大量的学者也研究机构参加比赛，验证自己的算法。后来的ImageNet更是拥有1000个分类和14M已经分类好的图片，供参加者来测试各类算法。值得一提的是，在2012年的ImageNet上，卷积神经网络极大地降低了错误率，夺得桂冠（卷积神经网络早就被发明，但是由于计算机的性能等种种原因没有被广泛应用），开启了深度学习的革命。

介绍完了这些历史之后，Fei-Fei Li教授说明了CS231n研究的主要问题是图片的识别与分类，但是计算机视觉的内容远不止此。计算机视觉还可以做到很多更酷的事情，比如她的团队正在努力的让电脑看到一张图片之后能够像人一样写出几段话，电脑可以识别出图片中各个内容之间的联系（即像人一样真正读懂图片）等等。由此可见，计算机视觉还有很大的发展余地，并且像人脑一样的识别视觉信息还很遥远，希望这一天在所有科学家和研究人员的推动下并不遥远。

本文引用了CS231n视频以及讲义部分内容，另感谢知乎智靖远提供的中文字幕。

引用文献有：Fei-Fei Li&Andrej Karpathy&Justin Johnson CS231n winter1516_lecture1 notes

Hubel, David H., and Torsten N. Wiesel. "Receptive fields, binocular interaction and functional architecture in the cat's visual cortex." The Journal of physiology 160.1 (1962)

Marr, David. "Vision.”The MIT Press, 1982
Brooks, Rodney A., and Creiner, Russell and Binford, Thomas O. "The ACRONYM model-based vision system. " In Proceedings of the 6th International Joint Conference on Artificial Intelligence (1979): 105-113.
Fischler, Martin A., and Robert A. Elschlager. "The representation and matching of pictorial structures."IEEE Transactions on Computers 22.1 (1973): 67-92.

1 0