textons,the elements of texture perception and their interactions_julesz

来源：互联网发布：matlab元胞数组赋值编辑：程序博客网时间：2024/06/02 04:07

前意识（pre-attentive），指无意识中可召回的部分，人们能够回忆起来的经验。它是无意识和意识之间的中介环节。无意识很难或根本不能进入意识，前意识则可能进入意识，所以从前意识到意识尽管有界限，但没有不可逾越的鸿沟。前意识处于意识和无意识之间、担负着“稽察者”的任务，不准无意识的本能和欲望侵入意识之中。但是，当前意识丧失警惕时，有时被压抑的本能或欲望也会通过伪装而迂回地渗入意识。　　意识，指心理的表面部分，是同外界接触直接感知到的稍纵即逝的心理现象。他反对把意识和心理等同起来的观点，认为意识是人的心理活动中比较小而非主要的部分。意识服从于现实原则，调节着进入意识的各种印象，压抑着心理中那些原始的本能冲动和欲望。但是，意识同外部联系，与其同机体内部环境联系相比，既要受较多条件的限制，又距离比较远些，所以，不仅无意识系统，就是意识系统，归根到底，还是由先天的本能、抑而未发的欲望所决定的。

摘要：

具有同样的二阶统计特性的纹理对（texture pair）的研究显示前意识纹理辨别系统不能处理三阶以上的高阶统计特性，这种差别是一些局部显而易见特征（叫做纹理基元）的结果，好像只有纹理基元的一阶统计特性具有重要的感知特性，而且，纹理基元之间的相对相位如果不细看的话也无法感知出来。

pre-attentive(effortless or instantaneous)

内容摘要：

可以看出，二阶相同的纹理全局是不可区分的，甚至在局部元素是意识或前意识可区分的情况，因为二阶统计特性决定了自相关函数，自相关函数的傅立叶变换是功率谱，同一二阶纹理具有同样的自相关函数和同样的功率谱。因此，前意识视觉系统忽略了相位谱，这些元素在注视的情况下是显而易见的，这意味着两种视觉系统使用分散的意识，由平行的过程调节。对于纹理元素位置的前意识纹理感知的不敏感性意味着平行系统。

意味着前意识视觉系统无法处理二阶以上的统计信息。

textons:准线性结构，（线段），拉伸的团块。

纹理差别不是在于二阶统计特性的差别的结果，而是基于纹理基元的密度变化。

相关资料：

在自然图象中，纹理作为物体的一种重要外观特征，为视觉感知提供了无处不在的信息，它在计算机视觉、图形学、图像编码等领域都有着重要作用，例如，格式塔（Gestalt）心理学，早期视觉理论和Marr的原始简约图（Primal Sketch）都将纹理模式作为中心话题。因此，对纹理的理解是视觉理解不可或缺的组成部分。过去的几年里，纹理分析和合成的相关研究工作在基础理论上与实际应用两个方面都取得了振奋人心的发展，研究者结合计算机视觉，图形学，现代统计物理，心理学和神经系统科学等领域的知识，提出了很多关于纹理理解的新方法。纹理的研究工作主要集中在两个领域：滤波理论（filtering theory）和统计建模（statistical modeling）理论。滤波理论来源于在神经生理学中被发现并被广泛接受的多通道滤波机制，该机制认为，人类视觉系统将视网膜图像分解为一组子带（sub-band）图像信号，而这些子带信号可以通过一组线性滤波器和图像卷积然后经过某些非线性操作计算得到。滤波理论在纹理方面的应用主要有 Gabor 滤波器和小波（wavelet）塔等，它们在纹理分割和分类中有良好的性能。统计建模理论认为，纹理图像是随机场上概率分布的采样，该理论涉及到时间序列模型（time series model），马尔可夫链（Markov chain）模型和马尔可夫随机场（Markov random Field，MRF）模型等建模方法。基于统计的建模方法一般只需要用很少几个参数来描述纹理特征，因此能为纹理提供简练的表示，而且它能把纹理分析问题转化为一个明确的统计推理问题来处理。

我们通过最大熵（Maximum Entropy）原则，将滤波理论和 MRF 建模结合在一起，提出了一种纹理建模的统计理论：滤波器随机场和最大熵（Filters，Random fields And Maxmum Entropy，FRAME ）模型。该理论认为具有相同纹理外观的图像全体 I 可以用随机场上的概率分布 f （ I ）描述，这样，纹理建模的目的就是从给定的观测纹理样本集推理 f ( I ) 。 FRAME 理论包括两步：（ 1 ）特征提取：从通用的能获取纹理特征的滤波器组（filter bank）中挑选出一组滤波器，用这组滤波器对观测的纹理图像滤波，提取滤波图像的直方图。很明显，在概率上，这些直方图是 f ( I ) 边缘分布的估计。（ 2 ）特征融合：根据最大熵原则，在分布族中选择具有（ 1 ）中边缘分布的概率分布 p ( I) 作为 f ( I ) 的估计。显然， FRAME 模型是一个 MRF 模型，具有很丰富的词汇量，能够描述大的纹理模式，因此，它比一般用于纹理建模的 MRF 模型纹理描述能力更强。

图 1 是 FRAME 用于纹理分析与合成的例子。上图是观测图像，下图是采样结果。

基元（Textons）

Textons 是指自然图像中基本的微观结构，它是视觉感知初始阶段（预注意阶段）的基元。Textons 的研究在很多问题中都很重要。首先，将一幅图像分解为简单的图像基元能够减少冗余信息，从而设计更好的图像编码算法；其次，基于分解的图像表达方式能压缩图像的维度，减少变量之间的相关性，更有利于图像建模，而图像建模是图像分割和识别中不可或缺的一步；再次，在生物视觉中，自然图像中的微观结构为理解神经元在生物视觉系统初级阶段的功能提供了重要的生理信息。

调和分析（ harmonic analysis ）是用于图像成分分析的一个重要工具，在数学上它研究的是函数族的分解，傅立叶变换（ Fourier transform ），小波变换（ wavelet transform ）， wedgelets ， ridgelet 和图像分析中的图像塔表示等都属于调和分析的范畴。经过多年的发展，研究者一致认为，图像的最优分解集应该是从全体自然图像中学习得到的。很显然，和傅立叶变换、小波变换等最初处理的数学函数族相比，全体自然图像要复杂得多，因此，研究自然图像的统计特性和图像的微观结构就显得尤为重要。这里有两个具有代表性的研究工作：一种研究的重心是自然图像的统计特性，包括研究图像的尺度不变性，小图像块的联合分布，图像滤波器响应的联合直方图或者相关性等。另一种研究是，利用稀疏编码（ sparse coding ）的思想试图从自然图像中学习超完备的图像基底。和傅立叶变换和小波变换所采用的正交基或紧框架不同，这里学习出来的基底有很高相关性。

Textons 的研究是从第二种研究路线出发的，它试图解决这样一个问题：当图像的超完备基底学习出来之后，在这些基底上最基本的图像微观结构是什么？和物理概念作个类比，假如将稀疏编码中的图像基底比作质子、中子和电子，那么自然图像中的原子、分子是什么？又该如何从图像中学习这些结构？

Textons 的工作里，我们首先基于图像基元独立同分布的假设，验证了稀疏编码机制中的产生式模型。其次，抛开这个假设，在产生式模型下我们研究了图像基底的空间结构，并且将 texton 定义为由一些具有某种几何和光照信息的图像基底组成的微型模板。

图１是一个星型模式从图像基底到 textons 的表达。

b) 星型模式的 texton 模板

c) 基底如何组成星型图像 .

图１. 星型模式从图像基底到 textons 的表达 (Zhu, Guo, Wu and Wang 2002)

原始简约图

自然图象中既有纹理信息，又有结构信息，为了从图像中提取几何结构信息，马尔（ Marr ）在他的表示框架中提出原始简约图（ Primal Sketch ）的概念作为中间表示层。这个表示层位于原始图像层和 2.5D 简约图（ 2.5 Sketch ）层之间，如图 3 所示。原始简约图在图像中以图像基元（ image primitives ）的形式出现，如柄（ bars ），边缘（ edges ）和终端结点（ terminators ）等。但是对于原始简约图，马尔（ Marr ）虽然做了很多客观的描述，但是既没有给出任何显示的数学表示，也没有严格定义视觉基元（ visual primitives ）的字典。

图 1. 马尔的表示框架

我们的研究为原始简约图给出了严格的数学理论，该理论分为四个组成部分：

（ 1 ）核心理论是将马尔可夫随机场（ Markov Random Field， MRF ）和小波理论（ wavelet theories ）结合提出了自然图像的原始简约图模型；

（ 2 ）结合 matching pursuit 和 filter pursuit，提出了 sketching pursuit 算法，该算法能从自然图像中自动搜寻图像的原始简约图表示。

（ 3 ）定义了图像的可描画性（ sketchability ）；

（ 4 ）从图像的简约图表示学习出一个基元字典。

原始简约图模型有以下特点：

（ 1 ）通过计算可描画性（ sketchability ）的 sketching pursuit 过程，自动将图像分为可描画（ sketchable ）部分和不可描画（ non-sketchable ）部分，他们分别对应着图像中的结构和纹理；

（ 2 ）利用从自然图像中学习出来的视觉基元（ visual primitives ），通过一个类似小波的产生式模型对图像中的结构信息建模；

（ 3 ）利用描述式模型（ MRF 模型）对图像中的纹理信息建模；

（ 4 ）利用格式塔（ Gestalt ）场（一种描述式模型）对结构的空间信息建模。

图2是原始简约图模型的一个实例

a). 输入图像b). sketching pursuit 过程c). 简约图

f). 合成图像e). 合成纹理d). 简约图图像

由主基元图到2.1维基元图

计算机视觉研究中低层视觉的一个主要研究方向是图像分割。由于一个场景中，不同的物体之间有不同层度的交叠，使得最理想的分割结果也会出现物体的不同部分（可视部分）之间分割开来，而不可视部分则为其它物体所覆盖的情况，这就不利于完整地展现物体。因此，有必要利用由图像得到的相关信息，如原始简约图（Primal Sketch）、颜色一致性、方位一致性等，研究一套算法，把同一物体分在同一个层里面，然后再把它们相应的部分之间连接起来，组成完整的物体。这就是2.1D Sketch的主要研究任务。
2.1D Sketch主要研究面物体，且不关心物体之间的深度信息，而只考虑它们之间的偏序关系（Partial Order）。
2.1D Sketch的研究成果将会用于图像分割、图像编辑、艺术图像生成以及图像序列分析中。