关于卷积核为何有效的初级理解

来源:互联网 发布:吉利知豆d3图片 编辑:程序博客网 时间:2024/06/07 07:49

下面是自己的理解,从维度的角度去考虑,刚入门不久,如果有错请一定要指出,谢谢。

    传统的神经网络MLP和其他的浅层算法如SVM等,是把一张图像先拉直再输入,后续也都处于一维的状态。而一张RGB图像共有9个维度的信息,分别是RGB值和对应的位置:R+G+B+Xr+Yr+Xg+Yg+Xb+Yb。MLP丢失了其中绝大部分的位置信息,在仅有的RGB值3个维度的信息去解决9个维度的问题,难度非常大,人的智力都不一定可以(那些看01数字判断程序运行、最强大脑里面的外星人也许可以)。
    而在卷积神经网络中,其输入与图像原始的维度一致,完整的保留了图像的RGB值和位置信息共9个维度的信息,且进行卷积处理时,使用2D卷积核与RGB三个通道上同一位置不同通道上的点进行内积(其实卷积核是3D的,但是通道方向不算卷积核的一个维数,因此名字是2D卷积核,不知道为什么这么规定),这与人眼类似,人的眼睛看一张RGB图片时也是将图像看成一个整体,而非分为3层逐一查看。
    三体小说里面说在四维空间里面,看三维的物体就不分里侧和外侧,所以才能够破坏光滑的水滴,隔空无创取心脏、大脑等等,三维的信息完全暴露出来。在不丢失图像维度的情况下,使用卷积核处理视觉识别的问题就取得了这么好的效果,那如果有更多的信息进来呢?例如深度、时间、味道、声音、触感甚至情感,会是一个什么样呢?如果是在视觉识别里面能够有更多的维度,效果会更好。

原创粉丝点击