万字长文|如何直观解释卷积神经网络的工作原理?

来源:互联网 发布:外国人学中文的软件 编辑:程序博客网 时间:2024/06/06 11:49

原文地址:https://mp.weixin.qq.com/s/1y5WD_vRfoSmGPbJ2-e86Q


万字长文|如何直观解释卷积神经网络的工作原理?

2017-07-23 专注报道AI 量子位
作者:YJango
日本会津大学|人机交互实验室博士生
量子位 已获授权编辑发布

该文是对卷积神经网络的介绍,并假设你理解前馈神经网络。

如果不是,强烈建议读完《如何简单形象又有趣地讲解神经网络是什么?》这篇文章后后再来读该篇。

推荐文章链接:

https://www.zhihu.com/question/22553761/answer/126474394

下面进入正题,开始我们的卷积神经网络之旅——

目录

  • 视觉感知

    • 画面识别是什么

    • 识别结果取决于什么

  • 图像表达

    • 画面识别的输入

    • 画面不变形

  • 前馈神经网络做画面识别的不足

  • 卷积神经网络做画面识别

    • 局部连接

    • 空间共享

    • 输出空间表达

    • Depth维的处理

    • Zero padding

    • 形状、概念抓取

    • 多filters

    • 非线性

    • 输出尺寸控制

    • 矩阵乘法执行卷积

    • Max pooling

    • 全连接层

    • 结构发展

  • 画面不变性的满足

    • 平移不变性

    • 旋转和视角不变性

    • 尺寸不变性

    • Inception的理解

    • 1x1卷积核理解

    • 跳层连接ResNet

视觉感知

一. 画面识别是什么任务?

学习知识的第一步就是明确任务,清楚该知识的输入输出。卷积神经网络最初是服务于画面识别的,所以我们先来看看画面识别的实质是什么。

先观看几组动物与人类视觉的差异对比图。

1. 苍蝇的视觉和人的视觉的差异


2. 蛇的视觉和人的视觉的差异


 更多对比图请参考http://chuansong.me/n/2656056

通过上面的两组对比图可以知道,即便是相同的图片经过不同的视觉系统,也会得到不同的感知。

这里引出一条知识:生物所看到的景象并非世界的原貌,而是长期进化出来的适合自己生存环境的一种感知方式。蛇的猎物一般是夜间行动,所以它就进化出了一种可以在夜间也能很好观察的感知系统,感热。

任何视觉系统都是将图像反光与脑中所看到的概念进行关联。

所以画面识别实际上并非识别这个东西客观上是什么,而是寻找人类的视觉关联方式,并再次应用。如果我们不是人类,而是蛇类,那么画面识别所寻找的f就和现在的不一样。

画面识别实际上是寻找(学习)人类的视觉关联方式

原创粉丝点击