CS231N-5-Convolutional Neural Networks

来源：互联网发布：河南省公安厅网络编辑：程序博客网时间：2024/05/01 19:55

Preface

The title of the class.
上节课是神经网络的基本框架，一层层layer的堆积，每层都是简单的linear+RELU，这显然是不够的。在图像处理上，convolutional layer比较管用。

现在我们先介绍CNN的历史。忽略远古时期，直接看两篇标志性的论文。
1998年LeCun发表了bp算法在zipcode recognization上的应用。由于硬件资源和数据集，只是在zipcode上。不过算法本身已经成熟。
LeNet
这里写图片描述
2012年Alex发表了Imagenet的论文，标志着大数据GPU的CNN时代。simiar to Lecun, just scaled. with huge amounts of images by GPU.
AlexNet

CV的应用
这里写图片描述

注意CV的应用也是分级别的，有难易的。参照face++研究员所说，最简单的是classfication对象是整张照片，顺便实现retrieval图片检索；稍难的是detection对象是region，检测出照片中的主要物体；更难的是segmentation对象是pixel，对每个像素有个归属；最难的好像有几个版本，一是sequence对象是视频，建立在detection基础上动态一帧帧地检测物体的运动，从而实现自动驾驶，二是language对象是region和自然语言，建立在detection和NLP/RNN基础上，合成一句caption，三是生成图片，如GAN，要求逼真清晰，可以仿照真人的real-time表情合成表情包（iphone X），或者按照要求生成一段视频。