我们理解高级视觉吗？---读后总结

来源：互联网发布：土建计价软件编辑：程序博客网时间：2024/06/02 01:11

原文链接：Do we understand high-level vision?

高级视觉缺乏一个唯一的，一致性的定义。最近几十年的工作大多数都集中在对象的识别问题上，主要是在视觉系统的一个场景当中去识别一个或者一群对象。重要的是在其中忽略了对象的位置、大小、光线以及它周围所呈现的物体。当对象识别作为了高层视觉的操作框架的时候，仅仅通过视觉神经来解决问题显然已经不足以解决问题了。所以作者将在这里陈述这项工作所做出的成绩和不足，并且一起讨论了是否应该重新形成我们对高级视觉的理解。

一、直觉性的错误：为什么视觉是如此的困难？

1、3D的世界被转换成了2D的平面图像去处理，其中就会很容易的忽视一些重要的信息

2、我们人类的视觉感知是从人类的进化就开始了，而对于计算机则是不同的过程、

3、我们在视觉系统上的能力扰乱了我们基本的直觉

二、寻求高级视觉操作的定义

关于高级视觉的一个功能性的定义是在某种程度上集中精力于处理对象或者其表面的物理参数，而不是关注于光线投掷到视网膜上所测量到的物理参数。

三、读出对象的身份

对于人类，在视网膜神经细胞上的信息呈现并不是一种形式，它可以很容易的为了引导行为通过顺流神经元很容易的被读出。

对于提取对象信息，在探查高级神经编码上线性分类器是一种合理的解码选择。

四、探索对象识别上面临的挑战

1、定义一个对象是十分困难的。我们可以表达特定对象的名称，但是每个对象都有很多种分类、用途、外观等特性，我们很难用简单的修饰将其准确的表达出来。

2、构建具有代表性的刺激方案对象是困难的。