关于卷积核为何有效的初级理解

来源：互联网发布：吉利知豆d3图片编辑：程序博客网时间：2024/06/07 07:49

下面是自己的理解，从维度的角度去考虑，刚入门不久，如果有错请一定要指出，谢谢。

传统的神经网络MLP和其他的浅层算法如SVM等，是把一张图像先拉直再输入，后续也都处于一维的状态。而一张RGB图像共有9个维度的信息，分别是RGB值和对应的位置：R+G+B+Xr+Yr+Xg+Yg+Xb+Yb。MLP丢失了其中绝大部分的位置信息，在仅有的RGB值3个维度的信息去解决9个维度的问题，难度非常大，人的智力都不一定可以（那些看01数字判断程序运行、最强大脑里面的外星人也许可以）。
而在卷积神经网络中，其输入与图像原始的维度一致，完整的保留了图像的RGB值和位置信息共9个维度的信息，且进行卷积处理时，使用2D卷积核与RGB三个通道上同一位置不同通道上的点进行内积（其实卷积核是3D的，但是通道方向不算卷积核的一个维数，因此名字是2D卷积核，不知道为什么这么规定），这与人眼类似，人的眼睛看一张RGB图片时也是将图像看成一个整体，而非分为3层逐一查看。
三体小说里面说在四维空间里面，看三维的物体就不分里侧和外侧，所以才能够破坏光滑的水滴，隔空无创取心脏、大脑等等，三维的信息完全暴露出来。在不丢失图像维度的情况下，使用卷积核处理视觉识别的问题就取得了这么好的效果，那如果有更多的信息进来呢？例如深度、时间、味道、声音、触感甚至情感，会是一个什么样呢？如果是在视觉识别里面能够有更多的维度，效果会更好。

阅读全文

0 0