个人学习总结一机器学习入门（三）

来源：互联网发布：西安软件测试招聘编辑：程序博客网时间：2024/05/23 14:15

（项目正常进行着，博客因为这周考试实验比较多的原因，留到周末来更新）

上一篇讲到了模式识别，这篇就主要说说计算机视觉吧，首先也是看看计算机视觉到底是什么。

-------以上取自百度百科

我觉得，计算机视觉=图像处理+机器学习。

"图像处理技术用于将图像处理为适合进入机器学习模型中的输入，机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常的

多，例如百度识图、手写字符识别、车牌识别等等应用。这个领域是应用前景非常火热的，同时也是研究的热门方向。随着机器学习的新领域深度学习的发展，大大促进了计算

机图像识别的效果，因此未来计算机视觉界的发展前景不可估量。"

用计算机来模拟人的视觉机理获取和处理信息的能力。就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，用电脑处理成为更适

合人眼观察或传送给仪器检测的图像。计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。计算机视觉的挑战是要为计算机和

机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号，纹理和颜色建模，几何处理和推理，以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地

集成在一起。

在我的理解里，要实现计算机视觉必须有图像处理的帮助，而图像处理倚仗与模式识别的有效运用，而模式识别是人工智能领域的一个重要分支，人工智能与机器学习密不可

分。纵观一切关系，发现计算机视觉的应用服务于机器学习。各个环节缺一不可，相辅相成。

其实一直比较困惑计算机视觉(Computer Vision)，计算机图形学(Computer Graphics)和图像处理(Image Processing)的区别和联系。

先看维基百科对这几个的定义。

计算机视觉(CV)：计算机视觉是一个学科/领域，它包括获取、处理、分析和理解图像或者更一般意义的真实世界的高维数据的方法；它的目的是产生决策形式的数字或者符号信息。

计算机图像学(CG)：计算机图形学是计算机科学的一个子领域，它包括数字合成和操作可视内容（图像、视频）的方法。尽管这个术语通常指三维计算机图形学的研究，但它也包括二维图形学和图像处理。

图像处理（IP）：在图像科学中，图像处理是用任何信号处理等数学操作处理图像的过程，输入时图像（摄影图像或者视频帧），输出是图像或者与输入图像有关的特征、参数的集合。

然后查阅大牛的博客，网上的讨论，自己分析了一下。以下借鉴了一位博主的博客。

博主有一句精简的概括，“Computer Graphics和Computer Vision是同一过程的两个方向。Computer Graphics将抽象的语义信息转化成图像，Computer Vision从图像中提取抽象的语义信息。Image Processing探索的是从一个图像或者一组图像之间的互相转化和关系，与语义信息无关。”看过之后确实很精简也很精确。

从输入输出角度看

(1)区别

Computer Graphics，简称 CG 。输入的是对虚拟场景的描述，通常为多边形数组，而每个多边形由三个顶点组成，每个顶点包括三维坐标、贴图坐标、rgb 颜色等。输出的是图像，即二维像素数组。

Computer Vision，简称 CV。输入的是图像或图像序列，通常来自相机、摄像头或视频文件。输出的是对于图像序列对应的真实世界的理解，比如检测人脸、识别车牌。

Digital Image Processing，简称 DIP。输入的是图像，输出的也是图像。Photoshop 中对一副图像应用滤镜就是典型的一种图像处理。常见操作有模糊、灰度化、增强对比度等。

(2)联系

CG 中也会用到 DIP，现今的三维游戏为了增加表现力都会叠加全屏的后期特效，原理就是 DIP，只是将计算量放在了显卡端。

CV 更是大量依赖 DIP 来打杂活，比如对需要识别的照片进行预处理。

最后还要提到近年来的热点——增强现实（AR），它既需要 CG，又需要 CV，当然也不会漏掉 DIP。它用 DIP 进行预处理，用 CV 进行跟踪物体的识别与姿态获取，用 CG 进行虚拟三维物体的叠加。

2.3 从问题本身看

(1)区别

从问题本身来说，这三者主要以两类问题区分：是根据状态模拟观测环境，还是根据观测的环境来推测状态。假设观测是Z，状态是X：Computer Graphics是一个Forwad Problem (Z|X)：给你光源的位置，物体形状，物体表面信息，你如何根据已有的变量的状态模拟出一个环境出来。

Computer Vision正好相反，是一个Inverse Problem (X|Z)：你所有能得到的都是观测信息(measurements), 根据得到的每一个Pixel的信息(颜色，深度)，我要来估计物体环境的特征和状态出来，比如物体运动(Tracking)，三维结构（SFM）,物体类别（Classification and Segmentation）等等。

对于Image Processing来说，它恰好介于两者之间，两种问题都有。但对于State-of-art的研究来说，Image Processing更偏于Computer Vision, 或者看上去更像Computer Vision的子类。尽管这三类研究中，随着CV领域的不断进步，以及越来越高级相机传感器出现（Depth Camera, Event Camera），很多算法都被互相用到，但是从Motivation来看，并没有太大变化。

(2)联系

得益于这几个领域的共同进步，所以你能看到Graphics和Computer Vision现在出现越来越多的交集。如果根据观测量（图片），Computer Vision可以越来越准确的估计出越来越多的变量，那么这些变量套到Graphics算法中，就可以模拟出一个跟真实环境一样的场景出来。

与此同时，Graphics需要构建更真实的场景，也希望能够将变量更加接机与实际，或者通过算法估计出来，这就引入了Vision的动机。这也是近年来三维重建算法，同时大量发表在Graphics和Vision的会议的原因。随着CV从2D向3D发展，以后两者的交集会越来越大，除了learning以外的其他很多问题融合并到一个领域我也不会奇怪。

0 0