计算机视觉综述性论文Intelligent Visual Media Processing: When Graphics Meets Vision翻译

来源：互联网发布：广数980编程代码编辑：程序博客网时间：2024/06/15 07:28

本文为计算机视觉领域综述性论文Intelligent Visual Media Processing: When Graphics Meets Vision的翻译。由于英文水平有限，如有错误，还望批评指正。

以下为翻译。

智能视觉媒体处理：当计算机图形学遇到计算机视觉

摘要

近年来，计算机图形学和计算机视觉紧密合作，已经开发了各种算法和应用程序来分析和操作我们周围的视觉媒体。
这个现象背后主要有三个驱动力：1）互联网大数据的可用性，使人们有了处理日益增长的大量资源的需求；2）强大的处理工具（如深度神经网络）为如何学习处理异构视觉数据提供了有效的方法；3）新的数据采集设备，如Kinect，成为二维图像理解和三维模型分析算法之间的桥梁。这些驱动力直到最近才出现，我们相信计算机图形学和计算机视觉的结合仍处于蜜月期的开始。在本文中中，我们调查最近的研究，计算机视觉技术是如何作用于计算机图形技术，反之亦然，并涉及了分析，操作，合成和互动的研究。我们还讨论了现存的问题，并提出可能的进一步研究方向。
关键词：计算机图形学，计算机视觉，调查，场景理解，图像处理

1 引言

计算机图形学和计算机视觉开始于逆向问题。传统的计算机图形学开始于几何建模和生成仿真图像，着重于相互作用、合成等。如图一所示，传统的计算机视觉始于输入图像序列和生成几何模型，着重于语义的理解、匹配等。在90年代，人们已经注意到了这两个领域融合的趋势。越来越多的计算机图形学的研究人员正试图利用视觉技术，以帮助尽可能有效的创造和操作视觉场景。同样地，使用计算机图像学技术帮助解决视觉问题也开始流行起来。
迄今为止，每天有数以亿计的互联网图像、视频和3D模型被创建，并在互联网上共享。如此多的视觉大数据催生了各种图像/视频/几何的分析和操作应用。
一方面，使智能计算机图形工具能够用最少的用户交互智能创建引人注目的结果，需要计算机视觉技术从现有的海量数据中提取语义成分和知识，如深度卷积神经网络在广泛领域里不断刷新性能，但是它通常依靠昂贵的，大规模的，人类标记的数据来学习。克服这个计算机图像学瓶颈，可研究自动学习算法来收集训练样本。随着RGBD图像捕捉设备（如Microsoft Kinect, Intel RealSense, Apple PrimSense等）的出现，计算机图形学和计算机视觉的连续已经进一步模糊。RGBD将图像和几何处理算法直接联系在一起，使得计算机图像学和计算机视觉的有效协作变得更为容易。
在本文中，我们调查最近的研究，以知道计算机视觉技术和计算机图形技术是如何相互促进的。这些主题包括显著性媒体处理（第2章），智能图像处理内容的理解（第3章），深度估计和三维建模（第4章），视觉学习数据合成（第5章）。我们还讨论了现存问题，并给对今后的研究方向给出建议。

2. 显著性媒体处理

显著性概念源于人类感知的研究，致力于场景的某些部分是如何对其他部分起作用的。显著性计算通常被认为是一种自下而上（因此通用的）的过程，基于局部图像特征，如颜色和对比。计算机视觉广泛应用了显著性，因为它提供了一种轻量级的方法来识别场景中最翔实和最重要的区域，如前景对象。另一类显着性的使用是帮助分析图像视频压缩或处理算法产生的图像的质量。例如，压缩产生的artifacts需要在听觉感知方面量化，那么显着性是是一个很好的替代。已有许多算法用于显著性检测，详见文献[13,14]。
在图形学中也有许多受益于采用显著性去预测人类感知实例。一类是处理图像和三维建模的一些应用，在处理过程中会出现一些错误，例如图像缩放，或网格简化。如果能限制数据的非显著部分而不是显著部分的错误，将会得到更好的结果。另一类是当数据的某些部分通过amplification被增强，如提高图像的强度和表面曲率。限制显著区域的amplification会产生更少的混乱，得到更具吸引力的结果。

2.1 内容感知缩放

当在不同尺寸和不同纵横比显示图像内容时，内容失真是一个普遍现象。提高用户体验的一个明智的方法是确保突出的对象应保持其与原始内容相似，任何失真应限制在不太重要的区域。
切缝法是内容感知图像缩放早期经典的方法。王进一步提高了速度问题，并通过连续优化代替离散切缝克服了锯齿边缘。受几何处理中的共形能量的启发，张提出了一个实时凸优化方法。一些作者已经将自底向上显著性方法延伸，包含了更高级别的方面，如目标语义和对称。图像重新定位也被扩展到处理图像放大、立体图像、视频序列和立体3D视频。
调整3D模型的大小，同时需要尽可能地保留底层模型的重要结构，这是非常重要的。重要的研究工作已经进入这一领域，以便轻松地将3D模型放到不同的场景。苗和林构造了二次能量函数来指导显著特征保持模型的大小调整，在调整中用到了边缘灵敏度测量。贾设计了一个基于区域的描述符来计算每个区域的显着性，基于与邻域对比度和一个分层的方法来计算显着性。他们表明，通过优化网格上的全局能量函数，可以得到视觉吸引的网格缩放结果。

2.2 形状简化与增强

网格显著性是Lee首先提出的，在多尺度高斯加权平均曲率上使用了一个中心环绕算子。他们使用来自计算显著的映射的加权映射，引导顶点对收缩的顺序，以产生网格简化，并在其他方法上也显示了其优越性。
Song等人提出了一种网格简化的网格显著性方法，将条件随机域模型（CRF）与显著性检测结合。在这个方法中，首先生成了一个网格的多尺度表征，然后采用CRF和领域连续性检测显著区域。Zhao和Liu提出了一种网格简化的替代方法。他们使用非局部均值滤波器，通过模糊形状指数场，产生了显著图。近来，Castell´o等人提出了一个基于视图的网格显著性表面简化方法。他们首先定义了一个新的简化误差度量来提高简化模型的视觉质量，并把视角显著性作为视角质量的加权因子。
增强形状特征，使得视觉上的重要特征能够突出，基于艺术美感原因也需要网格显著性估计。文献[33]中，Miao等人通过将多边形网格的视觉显著性度量引入到正常增强操作中，提出了用于形状描述的显著性引导阴影方案。由于3D形状的视觉显著性方法的的引入，这种方法可以调节光照和阴影动态扰动的表面模型提高底层模型的几何特征。文献[18]中，Miao等人提出了一个relief surface的基于视觉显著性的形状描述方法。他们将三个不同的自底向上特征图结合，并定义了一个新的多通道显著性方法。通过将这个显著性方法结合到夸大操作中，提出了一个显著性导向形状描述方法。在网格变形过程中，理解显著性特征也被用于保护重要的形状特征。

2.3 可视化

可视化的目标是引导观测者注意表征的相关方面。因此，对人类视觉系统的各个方面进行建模是非常重要的，而显著性则提供了一种简单的方法。
Kim 和 Varshney设计了一种基于视觉显著性的算子帮助提升量的选定区域。他们把算子插入到一个现有的可视化管道中，表明基于人类视觉系统的中心包围机制，显著性引导增强的体积可视化是有效的，并且可以应用于多种上下文中。此外，Janicke 和 Chen [ 17 ]提出了一种衡量可视化质量的度量标准。他们认为，可视图像上显著性的分布可以看作是可视化质量的一个重要衡量标准。同时，他们提供了一种在数据集上下文中计算可视化图像的度量的方法。
Semmo等人[ 35 ]用显著性控制不同的图形样式和层次细节的使用可视化的三维城市模型，以指导观众的视线最重要的信息。显著区域用真实感图形绘制，非显著区域用非真实感图形呈现，提供图像抽象。不同的渲染风格使用alpha混合以无缝的方式组合在一起。

2.4 3D打印

3D打印作为一种附加的制造工作，由于其能方便快速制造任何形状的物体而被广泛应用于广泛的应用领域。因此，它无疑是图形学研究的热点之一。
Song等人[ 36 ]提出了一种基于体素化的3D打印，无需连接，胶的方法，并同时提出螺钉连接印刷三维零件的三维互锁。对象被分解为一组初始的三维联锁部件。为了改善它们的美观性，通过在相邻的三维零件之间交换体素来改善这些切割接缝，从而避免将切割接缝穿过突出部分。边界体素的显著性是通过三维网格显著性[ 19 ]测度来估计的。
在文献[37]中，Wang等人提出了一种适用于3D打印系统的自适应宽度切割方案。为了减少打印时间，同时保持打印结果的视觉质量，他们优化了涉及这两个因素的成本函数。打印结果的视觉质量是通过显著性估计来维持的。此外，他们通过开发一个基于显著性的分割方法分割对象为部分，获得了更高的效率，并分别优化了各部分切片。

3. 智能操作和合成的内容理解

虽然大多数现有的计算机绘图工具，如Adobe PhotoShop和Autodesk Maya，主要支持低级操作，通常采用触摸或局部视觉内容[ 38-39 ]增强，高层次的图像编辑技术，允许用户指定有意义的变化，大规模使用简单的相互作用已经得到了广泛研究[40-41]。心理学家认为人处理和组织视觉信息是基于场景结构之间的关系。在意识到场景结构的同时，允许用户在场景对象水平上操作内容，是一种与我们的心理数据表示一致的有吸引力的编辑方式。
然而，为了模拟真实的用户体验和物理环境操作，我们需要理解视觉数据中的内容并克服四大挑战：1）视觉数据是由单个的元素，例如，像素和多边形，而不是语义对象；2）对对象排列在三维几何信息恢复往往是一个病态问题，不大可能在不久的将来得到解决；3）相关对象之间很难推断，编辑加工在保持现实主义批判；4）语义约束对对象的行为应该在用户的调整需要不被操纵的目标信息，而且在人类经验的先验知识和互联网大数据存在。

3.1 智能操作

随着计算机视觉技术提供的内容理解水平的提高，可视媒体操作工具可以更智能地推断用户意图，从而减少对精确用户输入和繁琐交互的要求。
文献[45]中，RepFinder系统检测近似重复对象，并建立它们之间的密集对应关系，使对象级别的操作同时保持重复的相关性。Goldberg等人[ 46 ]提出了交互式照片中使用相关的对象从互联网获得的图像处理的对象的数据驱动的方法。通过将候选对象与用户输入笔划相匹配，系统自动从因特网上查找候选对象，从而使一系列新的编辑体验不可能与低级操作（例如，删除一个对象的一部分以揭示其内部）相匹配。Lu等人进一步启用了对象级操作，用于视频内容的时间轴编辑。
理解对象形状及其透视关系对于高级图像处理经验也是至关重要的。Zheng[49]等人探索了基于长方体代理结构的用户交互创建局部场景重建的方法。这种局部场景结构允许一系列直观的图像编辑，这样用户只需提供高层语义提示和系统以保证合理的操作，模拟真实世界的行为，否则是很难实现的。在文献[42]中，3扫描系统的进一步使用一般的圆柱体和长方体结构来理解形状、预测和关系的成分。除了对象几何之外，粗糙场景几何对于高级图像编辑应用也是很重要的。Iizuka等人[ 50 ]提出了一个系统，用户可以将图像中的对象的同时确保对象的大小和对象重叠自动调整。这是通过在一幅图像中借助用户绘制的笔画来估计场景的透视结构来实现的。从单个图像估计物体形状和场景几何本质上是一个不适定问题。这些方法如[50-53]的成功依赖于用户交互（例如，中风[ 53 ]和边框[ 54 ]）和简化的假设（例如，长方体的代理[ 49 ]和[ 42 ]一般圆柱）。
高级图形应用程序依赖于语义[ 55 ]或场景几何复杂对象[ 43,56 ]经常要求没有明确地在一个单一的图像存在的信息。从大量的视觉数据收集中获得的知识对于通过解决歧义和不确定性获得似是而非的结果很有用。在ImageSpirit [55]系统，Cheng等人建议将名词用作对象标签和形容词作为视觉属性标签。这允许基于一组具有密集对象类和属性标签的图像学习的语义知识进行新的语言交互。Kholgade等人[ 43 ]提出了杠杆的结构和对称性在三维模型估计光照和完成一个对象在一张照片上看到隐藏的部分。Huang[56]等人联合分析了单视图重建的Web图像和形状集合。这样的联合分析中的优化配方和稳定对应的估计，从而使重建不同的对象使用一个较小的收集现有的3D模型。

3.2 视觉内容合成

陈等人[47]开发了一个命名sketch2photo的有趣的系统，能够自动转换成一个简单的手绘草图，随着几个文本标签注释，成为一个真实的画面。由于图片是通过搜索互联网找到的，因此可能产生许多不合适的结果。为了克服这一缺点，本文采用了一种滤波方案来消除不合适的图像，并采用图像混合算法寻找被发现图像的最佳组合。
文献[57] 提出了PposeShop系统构建人体分割图像数据库，进行综合个性化的漫画。通过使用计算机视觉技术，只需要极少的人工干预。分割进一步过滤[47]后，能够产生400个000分段的人类素质足够的品质。对图像进行分析，以便自动提供服装描述，用户可以使用这些文本属性在构建漫画条时查询数据库。Tanahashi等人[ 58 ]提出了可视化从故事情节的视频数据流的有效框架。Hasegawa和Saito [ 59 ]提出了一种合成频闪图像从视频序列中运动的分析方法。
Lalonde等人[ 60 ]建立了一个能插入新对象为现有的照片系统。提出了一种新的自动算法，以提高目标分割和融合，估计真实的三维物体的大小和方向，并估计场景光照条件。此外，还提供了直观的用户界面，能够更快地插入对象。
在文献[ 61 ]中，Xu等人提出了一个系统，可以自动转换手绘草图包含多个对象到一个语义有效的和精心安排的场景组成的三维模型。通过对三维模型进行共检索和联合放置，大大减少了基于草图的三维建模所需的用户干预量。
Chia等人[ 62 ]设计了一个能用更少的体力劳动将灰度照片着色的新系统。用户提供一个语义文本标签，并选择一个自动生成前景对象分割，该系统可以使用新的滤波方法自动下载和过滤合适的相关图像。这些然后提供驱动的着色过程是合适的参考图像。

4. 深度估计和3D建模

图像数据的场景建模是计算机视觉和计算机图形学的主要任务之一，也是这两个领域合并或发散的重点。将三维几何分析中的许多分析方法，如三维几何分析引入到深度估计和三维建模中，以获得更精确的三维几何数据。因此，本节介绍了在图形和视觉，使用技术，如结构从运动恢复几何和合成图像的应用。

4.1 三维场景建模

与主动场景建模系统（如结构光投影器）不同，基于视觉的建模主要是利用图像的立体匹配来创建真实世界的三维模型。结构运动（SFM）是一种被动的建模技术，同时估计三维场景结构和摄像机构成的二维图像序列。虽然SFM问题提出了几十年前[ 63 ]，直到最近，发展成为戏剧由于在计算性能的研究进展。基于SFM的应用也出现在场景重建和三维物体建模。
Snavely等人开发了一个照片浏览器[64]，它以非结构化的站点照片集合作为输入，计算每个照片的视点，以及场景中的稀疏3D点云。结果使用户能够在三维空间中探索照片。后来Agarwal等人。提出了一个命名为“罗马一天建成”的系统[ 65 ]。该系统可以处理非常大数量的照片（例如，谷歌在搜索一个城市时返回的结果）。Frahm等人[ 67 ]介绍了致密的三维重建系统，可以处理大约300万的互联网图像在一天的跨度在GPU的单台PC机。最近，该等人。实施“多视图环境”[ 68 ]，一个端到端的基于图像的几何重建工具以现场照片作为输入，并产生一个纹理的表面网格的结果。
各种应用程序可以使用视觉场景的建模和渲染的点云匹配和开发。Ceylan等人[ 69 ]运动耦合结构和城市立面D对称检测。恢复的对称信息和三维几何体使图像编辑操作保持了图像之间的一致性。Kopf等人[ 70 ]提出了一种创建平滑的摄像机运动从第一人称视频算法，这是在运动，因此遭受古怪的相机捕获。本工作采用SFM估计每一帧，再相机姿态呈现视频采用光滑的相机路径。
由于SFM可以恢复大规模场景的结构，它可以用于定位。最近的研究已经发展到由SFM的点云识别查询图像的定位算法。Tan等人[ 71 ]提出了一个单眼的SLAM（同时定位与地图）使用了一种特殊的关键帧表示和更新的方法来处理动态环境系统。Li等人[ 9 ]提出了一种利用稀疏变换的三维形状和运动的联合估计方法，同时利用小波适合三维轨迹。该系统表现出强大的性能在处理非刚性目标的遮挡。

4.2 面部表现

面部表情在人类互动和面对面交流的各个方面起着至关重要的作用。因此，人脸和人脸的性能建模一直被认为是计算机图形学和视觉领域的一大挑战。使用特殊的设备，如面部标记[ 74 ]，照相机阵列[ 75 ]和结构光投影仪[ 76 ]，能够捕获高逼真度的三维面部几何形状，这对于拍摄尤其是电影和游戏制作是至关重要的。
近来，已经开发出更适合于消费者级捕获方法的技术。它们不需要这种特殊设备，而是基于面部表情视频中三维几何和二维地标的联合建模。Cao等人[ 78 ]提出的实时人脸跟踪和动画一个全自动的方法与一个单一的视频摄像头，可以在RGDB-based算法的鲁棒性和准确性的证明达到同一水平。该方法引入了置换动态表达式（DDE）模型，该模型同时表示用户面部表情的三维几何形状和对应于视频帧中语义面部特征的二维面部标志。通过学习公共图像数据集的一般回归模型，该方法可以应用于任意摄像机，不需要任何训练就能推断出准确的二维面部标志和三维面部形状。Cao等人[ 66 ]进一步开发的面部跟踪系统，实时捕捉高逼真度的人的表现。

4.3 人体运动捕捉

运动捕捉是记录人（动物或关节结构）运动的过程，是场景建模的主要要求之一。它主要用于捕捉大规模的身体动作，即头部、手臂、躯干和腿部的运动。运动捕捉被广泛应用于教育、培训、体育以及最近用于电视、电影、视频游戏、虚拟现实等领域的计算机动画，这些动画主要在图形领域。虽然传统的方法往往是基于捕捉和主动或被动传感器，即声、惯性、LED加工、磁或反光标记，基于视觉的方法原则上允许自由触摸捕捉他们已逐渐引入图形和虚拟现实技术的应用。最近，4D表演捕捉（4DPC）[ 79 ]已被引入到捕获的形状，从多视点视频的外观和人体运动。它衍生出一系列具有时间一致的顶点和拓扑的重构三维网格，它捕捉到详细的表面动力学，加上可以投影到网格上的相关视频。利用4DPC数据，Huang等人[ 80 ]提出了一种骨架驱动的运动图路径优化和基于拉普拉斯表面变形模型学习部分角色动画。
最近的研究集中在运动和外观控制来重现角色动画，并使用机器学习。Xia等人提出了一个新方法，实时生成的风格化人体运动，自动将未标记的，异构的运动数据的新的方式使用在线学习算法，自动构造一系列的自回归模型的局部混合料（MAR）捕捉到的运动方式之间的复杂关系。Pons-Moll等人[ 82 ]提出了一种新的模型，称为动态，从例子和能够为范围广泛的身体形状和运动产生现实的软组织运动。

5. 综合大数据用于视觉学习

近年来，计算机视觉中对数据的需求越来越大。这在一定程度上是由于机器学习的广泛使用，以及计算机视觉在大规模、严格测试中的日益强调。因此，研究人员正在寻找有效的手段来获取或产生如此大规模的培训和测试。
三维模型的数据库提供了我们可以学习场景模型的例子。这样的3D模型提供了丰富的信息，视觉算法可以学习这些信息，如形状、表面法线、材料、光照、视点、透视和遮挡。问题是这些合成的数据是否有足够的质量对计算机视觉算法有用，因此需要注意提供逼真的特性，如噪音和自然变化。本节提供了三个使用合成数据进行可视化学习的示例。

5.1 姿态识别

从视频和图像中识别人的姿势已被广泛研究了几十年。如何快速、可靠地估计人的姿态是具有挑战性的。本小节将回顾一些使用合成数据的高级姿态识别方法。
Shotton等人[ 3 ]提出了一种实时的人体姿态识别方法，将困难的姿势识别任务转化为一个简单的像素级分类问题呈现在身体部分的中间表示。为了训练数据，他们设计了一个随机呈现流水线，随机选择一组参数，如高度、重量和摄像机噪声，然后使用计算机图形方法从三维网格中渲染深度和身体部分图像。在学习过程中，他们采用简单的深度比较特征，即三维平移不变，采用随机决策森林。一个巨大的合成图像对数据库，很深的森林是没有过度拟合训练。
在文献[84]中，Shotton等人介绍了两种有效的方法，正文部分分类（BPC）和偏移联合回归（OJR），预测身体关节的三维位置从一个单一的深度图像。类似的渲染方法，如[ 3 ]中所使用的生成合成数据，包括完全标记的训练数据，以及真正的手标记的深度图像，和测试数据。无论是BPC和牙买加陈年朗姆酒利用决策森林和简单的深度图像不变特征。但不同的是，BPC方法试图推断出一组，与感兴趣的节点对齐表面的身体部位，而牙买加陈年朗姆酒的方法试图直接估计身体内部节点的位置。
Rogez和Schmid [ 83 ]设计了一种基于图像的合成引擎，结合不同的图像区域增加图像和使用产生的图像训练CNN，用于3D姿态预测。他们的基于图像的合成引擎由两部分组成。一个面向模型的控制程序引导图像拼接技术是先用针图像补丁在一起然后姿态感知混合过程进行提高质量和删除补丁缝。训练数据，一个端到端的CNN采用三维人体姿态分类。

5.2 目标检测

目标检测是计算机视觉领域中最具挑战性的课题之一，近年来取得了巨大的成功。深度图像合成数据集进一步推动了它的发展。
Song和Xiao[85]建议使用深度地图进行目标检测。他们开发了一种3D探测器，帮助克服各种障碍，如纹理、光照、形状、杂波等的识别。训练数据是从数百个视图渲染三维CAD模型得到的合成深度图的集合。在深度绘制过程中，特征点从三维点云中提取，其次是样本SVM分类器[86]。
Peng等人[ 87 ]用合成图像观察深度CNNs的不变性提出了各种低级别的线索和用于目标检测自己的CNN。在给定每个物体的三维CAD模型的基础上，通过模拟各种低阶线索，包括形状、表面颜色、反射率、位置等，生成一组合成二维图像。他们表明，如果一个模型被训练的检测任务，它不需要纳入合成图像模拟线索。
Zhang等人利用紧凑型三维流形生成目标检测方案。低维高斯过程隐变量形状空间的训练。然后，从这个流形中采样形状变化，然后用于训练过程。

5.3 目标识别

随着深网络技术的发展，二维物体识别技术有了很大的发展。随着生产的3D点云数据先进的设备的出现，越来越多的研究[89-90]着眼于开发利用3D卷积网络的三维识别。
Wu等人设计了卷积深层信度网络，用于三维体元数据的联合概率分布建模。为了训练深网络，根据体素是否在网格曲面上，将每个体素映射成一个二元张量，生成一个大规模的三维CAD模型数据集。
Wohlhart和Lepetit[ 91 ]介绍了高效的、可扩展的最近邻搜索描述符空间进行物体识别。他们使用人工合成的和真实世界的数据进行训练。后者是通过定期采样的观点在对象创建网格半圆顶，和RGBD用搅拌机空背景渲染对象。一个卷积网络用于直接映射原始图像补丁到一个紧凑和有区别的描述符。他们还使用欧氏距离来评估描述符之间的相似性。

6. 讨论和结论

我们回顾了近年来计算机图形学和计算机视觉技术相互有益的各种研究成果。一方面，先进的视觉技术为理解和提供显著的特征、对象分割、三维几何、场景透视、语义等提供了强有力的工具。随着场景理解程度的提高，通过感知重要的对象部分，能够在对象级别执行操作，或者能够猜测用户意图，可以使许多图像处理工具更智能化。我们注意到，对于使用视觉技术的不同图形应用程序的性能进行比较，仍然没有几个大型基准。这妨碍了在纯计算机视觉工作中经常观察到的系统研究和性能提升。随着视觉技术的迅速发展，特别是最近的深入学习方法，我们相信越来越多的视觉分析将变得足够强大，以支持更多的视觉应用。
另一方面，图形技术也被用于合成大的视觉数据，用于姿态识别、目标检测、目标识别等。也有许多分析方法起源于图形领域，如三维几何分析，这些方法被引入到深度估计和三维建模中，以产生更精确的三维几何数据，或捕捉人体运动和面部表现。然而，尽管增长非常快，在视觉中使用的图形技术的数量仍然比在图形中使用的视觉技术的数量少得多。需要更多的研究工作来帮助创建训练数据、生成候选检测、建模过程等。
图形和视觉社区都需要对各种现实任务进行全场景理解。这种语义理解通常涉及不同的个体任务，这些任务是高度相关的。迄今为止，大多数研究都致力于研究一两个任务。虽然这种研究通常是非常深入的，但它不足以广泛地考虑许多视觉和图形任务，这将有助于比在典型的计算机视觉或图形系统中使用更多的线索。最近一些开创性的工作，共同探讨3D建模、目标分割、用户交互、在线学习、和相机的定位[型]。虽然这些新的系统只能处理简单的视觉场景，并支持有限的场景理解，但它们通过在环境中共同发现、重建、交互和学习，使用全场景理解引领了一个光明的未来。

阅读全文

0 0