《高斯核函数的两点性质》

来源：互联网发布：js怎么用编辑：程序博客网时间：2024/04/29 14:19

高斯核函数的两点性质
高斯核函数 K(x,y)=exp(-||x-y||2/2σ2)

在选择核函数时，若对给出的数据没有先验知识，RBF核就是最好的选择。为了研究为什么使用了核技巧的学习机器往往具有良好的推广能力，文献[1]建立了核函数K与正则化算子P之间的关系来考察部分核函数的推广能力，并说明了采用RBF核的支持向量机可以获得非常平滑的估计，这就解释了为什么SVM采用RBF核时往往具有良好的性能。RBF核的另一个优点是其核值的范围为（0,1）, 这会使计算过程变得简单。

RBF核的性能优劣直接受尺度参数σ大小的影响，文献[2]给出了参数σ的极限性质。

性质 1 若RBF核中尺度参数σ趋于0，则拉格朗日乘子向量的所有分量都大于0，即全部样本点都是支持向量。

性质1 说明，对于任意给定的训练集，只要σ>0且充分小，RBF核SVM必定可对所有训练样本正确分类，这很容易造成‘过学习’的情况。

性质 2 当σ趋于无穷时，SVM的判别函数为一常函数，其推广能力或对新样本的正确分类能力为零，即把所有样本点判为同一类。

实际上，当σ比训练样本点之间的距离小得多时，就能达到σ趋于0的效果，当σ比训练样本点之间的距离大得多的时候，就产生σ趋于无穷的效果。

[1] Smola AJ. Learning with kernels. Technical university of berlin, 1998

[2] 褚蕾蕾，陈绥旭，周梦. 计算智能的数学基础. 北京：科学出版社，2002

局部算子

1.局部算子分类：

1）基于分布的算子：使用直方图表现不同的外观或形状特

2）空间频率技术：傅立叶变换和盖伯变换

3）微分算子：

2.局部特征建立依赖的空间

1）归一化的Laplacian尺度空间

2) Difference of Gaussian

3. 局部区域检测算法

1）Harris points 旋转不变量特征点周围41×41像素区域大小固定

2）Harris-Laplace regions 旋转和尺度不变量检测角点结构特征

3）Hessian-Laplace regions 旋转和尺度不变量特征点是由Hessian 决定的空间极大值和Laplacian-of-Gaussian.尺度空间极大值，与DoG检测近似，但是在尺度空间能获得更高的准确度，并且在尺度选择上的准确度也高于Harris-Laplace 。检测的准确性影响算子的执行力。

4）Harris-Affine regions 仿射不变量由Harris-Laplace 检测子检测位置和尺度，附近的仿射由基于二次动差矩阵的affine adaptation 程序决定

5）Hessian-Affine regions 仿射不变量由Hessian-Laplace 检测子检测位置和尺度，附近的仿射由affine adaptation 程序决定

4. 局部区域描述子

1） SIFT描述子是一个3D梯度位置方向直方图，位置被量化到4×4局部栅格，梯度角度分为8个方向，算子为4×4×8＝128维

2）Gradient location-orientation histogram (GLOH)，GLOH是SIFT描述子的一种延伸，为了增强其鲁棒性和独立性。以对数极坐标在半径方向建立三个带（6，11，15）和8个角度方向，形成17个位置带，中心带在半径方向不分块。梯度方向量化为16个带，形成272维矢量，利用PCA降维

3）Shape context 与SIFT描述子相似，但是基于边缘 Shape context是一个边缘点位置和方向的3D直方图，以对数极坐标在半径方向建立三个带（6，11，15）和4个角度方向，生成36维描述子

4）Geometric histogram 在一个区域内描述边缘分布直方图

4）PCA-SIFT 描述子以特征点周围39×39像素块形成3024维矢量，用PCA降维36维

5）Spin image 是一个量化像素位置和强度的直方图，在5个圆环中计算10个强度带，生成50维算子

6）Steerable filters and differential invariants 使用与高斯卷积后的导数

7）Complex filters

8) Moment invariants

9) Cross correlation

6.匹配方法：

基于阈值的匹配

基于最近邻匹配：如果DB是DA的最近邻区域，且之间的距离小于阈值则区域A与区域B是匹配的

基于次最近距离与最近距离之比：

7. 描述子维数影响

低维算子：steerable filters ,complex filters, differential invariants

基于微分的算子，导数的阶数影响着算子的维数，对于steerable filters 三阶导数和四阶导数都能保持算子的独立性，并且导数的阶数对算子匹配的准确度影响显而易见，但是对complex filters 和differential invariants影响较小。并且steerable filters 计算到四阶导数时效果比differential invariants 效果好。

高维算子：GLOH，PCA-SIFT，cross correlation 算子维数过高与过低效果都不理想。对于GLOH算子，128维匹配效果高于40维和272维，对于PCA-SIFT36维效果好于20维和100维，对于cross correlation则81维匹配效果好于36维和400维。

8.对不同图像变换的适应性

1）仿射变换。利用Hessian Affine 和Harris Affine 检测特征点，然后对不同的局部算子测试。效果最好的是SIFT算子。并且利用Hessian Affine 比Harris Affine的效果好，因为基于拉普拉斯的尺度选择与Hessian 算子相结合可以获得更准确的结果。

2）尺度变换大多算子表现良好

3）旋转变换有三种误差影响算子的计算：区域误差，位置误差，方向估计误差

4）图像模糊所有的算子性能都有所降低，但是GLOH和PCA-SIFT算子性能最好，基于边缘检测的算子性能下降最为明显

5）图像压缩影响小于图像模糊，但是比尺度变换和旋转变换大

6）光照变化对低维算子影响高于高维算子

总结：1）GLOH性能最好，其次是SIFT

2）低维算子中性能最好的是gradient moments和steerable filters

3）cross correlation 最不稳定

4） Hessian-Laplace 和Hessian-Affine 主要检测圆斑状结构。

5）由于更高的准确性，Hessian 区域比Harris区域性能更好一些

SIFT算法

1 SIFT 发展历程
SIFT算法由D.G.Lowe 1999年提出，2004年完善总结。后来Y.Ke将其描述子部分用PCA代替直方图的方式，对其进行改进。

2 SIFT 主要思想

SIFT算法是一种提取局部特征的算法，在尺度空间寻找极值点，提取位置，尺度，旋转不变量。

3 SIFT算法的主要特点：

a) SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性。

b) 独特性(Distinctiveness)好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配[23]。

c) 多量性，即使少数的几个物体也可以产生大量SIFT特征向量。

d) 高速性，经优化的SIFT匹配算法甚至可以达到实时的要求。

e) 可扩展性，可以很方便的与其他形式的特征向量进行联合。

4 SIFT算法步骤：

1）检测尺度空间极值点

2）精确定位极值点

3）为每个关键点指定方向参数

4）关键点描述子的生成

5 SIFT算法详细
由于blog无法编辑公式，因此详细的总结在word版。
UploadFiles/2007-3/32233508.doc

SIFT 后来有两种扩展，都用到PCA的概念。
1 PCA-SIFT

PCA-SIFT与标准SIFT有相同的亚像素位置（sub-pixel ），尺度（scale）和主方向（dominant orientations），但在第4步计算描述子的时候，它用特征点周围的41×41的像斑计算它的主元，并用PCA-SIFT将原来的2×39×39维的向量降成20维，以达到更精确的表示方式。

▲创建PCA-SIFT描述子的步骤：

1）计算或者载入投影矩阵

2）检测关键点

3）通过与投影矩阵相乘投影关键点周围的像斑

▲ PCA-SIFT 投影矩阵的产生

△ 选择一系列有代表性的图像并且检测这些图像的所有关键点

△ 对每一个关键点：

1〉在它的周围选择一个大小为41×41象素的像斑

2〉计算垂直和水平的梯度，形成一个大小为39×39×2＝3042的矢量

3〉将这些矢量放入一个k×3042大小的矩阵A，k是所检测的关键点数目。

4〉计算矩阵A的协方差： A＝A－mean A cov A ＝ATA

5〉计算cov A 的特征值和特征矢量

6〉选择前n个特征向量，投影矩阵是一个由这些特征向量组成的n×3042的矩阵

7〉 n可以是一个根据经验设置的固定值，也可以基于特征值动态选择。

8〉投影矩阵只计算一次，并且存储

▲ 建立描述子

△ 输入：在尺度空间关键点的位置和方向

△ 在关键点周围提取一个41×41的像斑于给定的尺度，旋转到它的主方向

△ 计算39×39水平和垂直的梯度，形成一个大小为3042的矢量

△ 用预先计算好的投影矩阵n×3042与此矢量相乘

△ 这样生成一个大小为n的PCA-SIFT描述子

▲SIFT和PCA-SIFT的比较

△ SIFT：

维数：128

缺点：维数高、不完全的仿射不变

优点：需要较少的经验主义知识，易于开发

△ PCA-SIFT：

维数：可变，推荐20或者更少

缺点：不完全的仿射不变；投影矩阵需要一系列有代表性的图像；这个矩阵只对这类图像起作用

优点：保留不变性的同时低维，大大减少了计算时间

2 GLOH (Gradient location-orientation histogram)

把原来SIFT中4×4棋盘格的location bins 改成仿射状的同心圆的17 location bins 来表示，并计算其中的梯度方向直方图（梯度方向分为16种），因此共16×17＝272维，之后再作PCA将其降成128维，因此保有跟SIFT一样精简的表示方法。

相关向量机（Relevance vector machine,简称RVM）是Tipping在2001年在贝叶斯框架的基础上提出的，它有着与支持向量机（Support vector machine,简称SVM）一样的函数形式，与SVM一样基于核函数映射将低维空间非线性问题转化为高维空间的线性问题。

一、RVM与SVM的区别：

1. SVM 基于结构风险最小化原则构建学习机，RVM基于贝叶斯框架构建学习机

2. 与SVM相比，RVM不仅获得二值输出，而且获得概率输出

3. 在核函数的选择上，不受梅西定理的限制，可以构建任意的核函数

4. 不需对惩罚因子做出设置。在SVM中惩罚因子是平衡经验风险和置信区间的一个常数，实验结果对该数据十分敏感，设置不当会引起过学习等问题。但是在RVM中参数自动赋值

5. 与SVM相比，RVM更稀疏，从而测试时间更短，更适用于在线检测。众所周知，SVM的支持向量的个数随着训练样本的增大成线性增长，当训练样本很大的时候，显然是不合适的。虽然RVM的相关向量也随着训练样本的增加而增加，但是增长速度相对SVM却慢了很多。

6. 学习机有一个很重要的能力是泛化能力，也就是对于没有训练过的样本的测试能力。文章表明，RVM的泛化能力好于SVM。

7. 无论是在回归问题上还是分类问题上，RVM的准确率都不亚于SVM。

8. 但是RVM训练时间长

1.SVM 基于结构风险最小化原则构建学习机，RVM基于贝叶斯框架构建学习机
2.大部分情况下，RVM所使用向量只是SVM的10%左右
3.RVM测试时间短于SVM 7-8倍，但训练时间长7-8倍
4.对于分类而言，部分文章结论为RVM分类准确度比SVM略低2%左右，而有的论文RVM不但比SVM更为稀疏，而且获得更高的分类准确度。获得分类准确度较低的论文将其原因归结为RVM更大的稀疏性。
5.RVM对于训练样本和特征较少的分类，更具有鲁棒性。
6.对于多分类情况，one-against-one, one-against-all法则较为常用
7.对于回归问题：RVM多用在跟踪、预测上，其结果与上面情况差不多。
8.对于核函数的选择，RBF较为常用，但在很多情况下不是最好的。
9.RVM在解决了SVM部分缺点的同时，也引入新的缺点。其训练时间随着训练样本的增多而迅速增加。

10.还有一点不同，RVM的非零权重并没有分布在决策边界附近，而是更反映了采样的原型

二、RVM原理步骤

RVM通过最大化后验概率（MAP）求解相关向量的权重。对于给定的训练样本集{tn,xn}，类似于SVM , RVM 的模型输出定义为

y(x;w)=∑Ni=1wiK(X,Xi)+w0

其中wi为权重， K(X,Xi)为核函。因此对于, tn=y(xn,w)+εn,假设噪声εn 服从均值为0 , 方差为σ2 的高斯分布,则p ( tn | ω,σ2 ) = N ( y ( xi ,ωi ) ,σ2 ) ,设tn 独立同分布,则整个训练样本的似然函数可以表示出来。对w 与σ2的求解如果直接使用最大似然法，结果通常使w 中的元素大部分都不是0，从而导致过学习。在RVM 中我们想要避免这个现像，因此我们为w 加上先决条件：它们的机率分布是落在0 周围的正态分布: p(wi|αi) = N(wi|0, α?1i ),于是对w的求解转化为对α的求解，当α趋于无穷大的时候，w趋于0.

RVM的步骤可以归结为下面几步：

1. 选择适当的核函数，将特征向量映射到高维空间。虽然理论上讲RVM可以使用任意的核函数，但是在很多应用问题中，大部分人还是选择了常用的几种核函数，RBF核函数，Laplace核函数，多项式核函数等。尤其以高斯核函数应用最为广泛。可能于高斯和核函数的非线性有关。选择高斯核函数最重要的是带宽参数的选择，带宽过小，则导致过学习，带宽过大，又导致过平滑，都会引起分类或回归能力的下降

2. 初始化α，σ2。在RVM中α，σ2是通过迭代求解的，所以需要初始化。初始化对结果影响不大

3. 迭代求解最优的权重分布。

4. 预测新数据

三、应用

1 分类

在人脸面部表情识别，人脸检测，文本识别，图形选择，垃圾邮件识别中都有不俗表现

2.回归

主要应用在物体的跟踪，3D姿态估计，3D模型恢复

相关向量机采取是与支持向量机相同的函数形式稀疏概率模型，对未知函数进行预测或分类。其训练是在贝叶斯框架下进行的，与SVM相比，不需要估计正则化参数，其核函数也不需要满足Mercer条件，需要更少的相关向量，训练时间长，测试时间短。

优点：

(1) 不仅仅输出预测目标量的点估计值,还可以输出预测值的分布.
(2) 使用更少数量的支持向量,从而显著减少输出目标量预测值的计算时间.
(3) RVM不需要估计过多的参数.
(4) RVM对是否满足Mercer 定理的核函数没有限制,适应性更好.

更适合在线预测

稀疏贝叶斯模型与相关向量机学习研究评论
杨国鹏[1] 周欣[2] 余旭初[1]
[1]信息工程大学测绘学院,郑州450052 [2]信息工程大学信息工程学院,郑州450002

《计算机科学》
2010年第37卷第7期摘　　要:虽然支持向量机在模式识别的相关领域得到了广泛应用，但它自身固有许多不足之处。相关向量机是在稀疏贝叶斯框架下提出的稀疏模型，模型没有规则化系数，核函数不要求满足Mercer条件。相关向量机不仅具备良好的泛化能力，而且还能够得到具有统计意义的预测结果。首先介绍了稀疏贝叶斯回归和分类模型，通过参数推断过程，将相关向量机学习转化为最大化边缘似然函数估计，并分析了3种估计方法，给出了快速序列稀疏贝叶斯学习算法流程。 (共4页)

关联向量机在高光谱影像分类中的应用

将关联向量机应用于高光谱影像分类,实现高维空间中训练样本不足时分类器的精确建模.从稀疏贝叶斯理论出发,分析关联向量机原理,探讨一对多、一对一和两种直接的多分类方法.实验环节比较了各种多分类方法,并从精度、稀疏性两方面将关联向量机与支持向量机等经典算法比较.实验结果表明,两种直接的多分类方法内存占用大、效率低;一对多精度最高,但效率较低;一对一计算效率最高,精度与一对多近似.关联向量机精度不如支持向量机,但解更稀疏,测试样本较多时实时性好,适合处理大场景高光谱影像的分类问题.

著名的图像检索系统介绍

0
推荐1. QBIC(Query By Image Content)图像检索系统是 IBM 公司 90年代开发制作的图像和动态景象检索系统，是第一个基于内容的商业化的图像检索系统。QBIC 系统提供了多种的查询方式，包括：利用标准范图（系统自身提供）检索，用户绘制简图或扫描输入图像进行检索，选择色彩或结构查询方式，用户输入动态影象片段和前景中运动的对象检索。在用户输入图像、简图或影象片段时，QBIC 对输入的查询图像进行颜色、纹理、形状等特征进行分析和抽取，然后根据用户选择的查询方式分别进行不同的处理。QBIC 中使用的颜色特征有色彩百分比、色彩位置分布等；使用的纹理特征是根据Tamura 提出的纹理表示的一种改进，即结合了粗糙度、对比度和方向性的特性；使用的形状特征有面积、圆形度、偏心度、主轴偏向和一组代数矩不变量。QBIC 还是少数几个考虑了高维特征索引的系统之一。

QBIC除了上面的基于内容特性的检索，还辅以文本查询手段。例如为旧金山现代艺术博物馆的每幅作品给予标准描述信息：作者、标题、日期，许多作品还有内容的自然描述。

2. Virage 是由 Virage 公司开发的基于内容的图像检索引擎.同QBIC 系统一样，它也支持基于色彩、颜色布局、纹理和结构等视觉特征的图像检索。Jerry 等人还进一步提出了图像管理的一个开放式框架，将视觉特征分为通用特征（如颜色、纹理和形状）和领域相关特征（如用于人脸识别和癌细胞检测等）两类。

VIRAGE公司的VIR（Visual Information Retrieval）图像引擎提供了四种可视属性检索（颜色、成分、纹理和形状）。每种属性被赋予0到10的权值。通过颜色特性检索是最简单明了的，该软件对选出的基础图像的色调、色彩以及饱合度进行分析，然后在图像库中查找与这些颜色属性最接近的图像。成分（composition）特性指相关颜色区域的近似程度。用户可以设定一个或多个属性权值来优化检索。要达到最佳平衡度需要反复试验，但检索过程是相当快的。在结果显示矩阵中可以选择查看3、6、9、12、15或18个简图。通过对四个属性权值的调整，显示出不同的检索结果。简图是根据相似度降序排列。点击简图标题将得到该图像的一些详细说明，包括Virage计算出的相似比。

3. RetrievalWare 是由 Excalibur 科技有限公司开发的一种基于内容的图像检索工具。早期版本中，可以看到该系统的重点在于运用神经网络算法实现图像检索。在比较新的版本中r提供基于6种图像属性的检索，分别是颜色、形状、纹理、颜色结构、亮度结构和纵横比。颜色属性是对图像的颜色及其所占的比率进行测定，但并不包括对颜色的结构或位置的测定，这一项是由颜色结构属性控制的；形状属性指图像中物体的轮廓或线条的相对方位、弯曲度及对比度；纹理属性是指图像的平滑度或粗糙度，一幅图的表面特性；亮度属性是指构成图像的象素组合的亮度。这是一个非常有力的图像检索工具。

4. Photobook 是美国麻省理工学院的多媒体实验室所开发的用于图像查询和浏览的交互工具。它由三个子系统组成，分别负责提取形状、纹理、面部特征。因此，用户可以在这三个子系统中分别进行基于形状、基于纹理和基于面部特征的图像检索。

在 Photobook 的最新版本 FourEyes 中，Picard 等人提出了把用户加入到图像注注释和检索过程中的思想。同时由于人的感知是主观的，他们又提出了“模型集合”来结合人的因素。实验结果表明，这种方法对于交互式图像注释来说非常有效。

5. VisualSEEK 是基于视觉特征的检索工具， WebSEEK 是一种面向 WWW 的文本或图像搜索引擎。这两个检索系统都是由哥伦比亚大学开发的。它们的主要特点是采用了图像区域之间空间关系和从压缩域中提取的视觉特征。系统所采用的视觉特征是利用颜色集和基于小波变换的纹理特征。VisualSEEK 同时支持基于视觉特征的查询和基于空间关系的查询。WebSEEK 包括三个主要模块：图像/视频采集模块，主题分类和索引模块，查找、浏览和检索模块。

相对于其它的多媒体检索系统，VisualSEEK 的优点在于：高效的 Web 图像信息检索，采用了先进的特征抽取技术，用户界面强大，操作简单，查询途径丰富，输出画面生动且支持用户直接下载信息。而 WebSEEK 本身就是一个独立的万维网可视化编程工具，已经对 650000 幅图像和 10000 个影象片段进行了编目，用户可以使用目录浏览和特征检索方式进行图像检索。

在做RVM的建模预测，但是有一些问题有点迷惑，在训练模型的时候最优参数的求取上，不是特别清楚，然后就是得到那些参数后，用测试数据进行验证，

基于稀疏贝叶斯学习的图像重建方法
http://www.doc88.com/p-90381807333.html

贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。　　贝叶斯决策就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。　　贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是：　　1、已知类条件概率密度参数表达式和先验概率。　　2、利用贝叶斯公式转换成后验概率。　　3、根据后验概率大小进行决策分类。　　他对统计推理的主要贡献是使用了"逆概率"这个概念，并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理，这一定理可用一个数学公式来表达，这个公式就是著名的贝叶斯公式。贝叶斯公式是他在1763年提出来的：　　假定B1,B2,……是某个过程的若干可能的前提，则P(Bi)是人们事先对各前提条件出现可能性大小的估计，称之为先验概率。如果这个过程得到了一个结果A，那么贝叶斯公式提供了我们根据A的出现而对前提条件做出新评价的方法。P(Bi∣A)既是对以A为前提下Bi的出现概率的重新认识，称 P(Bi∣A)为后验概率。经过多年的发展与完善，贝叶斯公式以及由此发展起来的一整套理论与方法，已经成为概率统计中的一个冠以“贝叶斯”名字的学派，在自然科学及国民经济的许多领域中有着广泛应用。公式：　　设D1，D2，……，Dn为样本空间S的一个划分，如果以P(Di)表示事件Di发生的概率，且P(Di)>0(i=1，2，…，n)。对于任一事件x，P(x)>0，则有：　　n　　P(Dj/x)=p(x/Dj)P(Dj)/∑P(X/Di)P(Di)　　i=1　　(http://wiki.mbalib.com/w/images/math/9/9/b/99b1873c5d047747a8768a99ac7c370e.png）贝叶斯预测模型在矿物含量预测中的应用贝叶斯预测模型在气温变化预测中的应用贝叶斯学习原理及其在预测未来地震危险中的应用基于稀疏贝叶斯分类器的汽车车型识别信号估计中的贝叶斯方法及应用贝叶斯神经网络在生物序列分析中的应用基于贝叶斯网络的海上目标识别贝叶斯原理在发动机标定中的应用贝叶斯法在继电器可靠性评估中的应用相关书籍: Arnold Zellner 《Bayesian Econometrics: Past, Present and Future》 Springer 《贝叶斯决策》黄晓榕《经济信息价格评估以及贝叶斯方法的应用》张丽 , 闫善文 , 刘亚东《全概率公式与贝叶斯公式的应用及推广》周丽琴《贝叶斯均衡的应用》王辉 , 张剑飞 , 王双成《基于预测能力的贝叶斯网络结构学习》张旭东 , 陈锋 , 高隽 , 方廷健《稀疏贝叶斯及其在时间序列预测中的应用》邹林全《贝叶斯方法在会计决策中的应用》周丽华《市场预测中的贝叶斯公式应用》夏敏轶 , 张焱《贝叶斯公式在风险决策中的应用》臧玉卫 , 王萍 , 吴育华《贝叶斯网络在股指期货风险预警中的应用》党佳瑞 , 胡杉杉 , 蓝伯雄《基于贝叶斯决策方法的证券历史数据有效性分析》肖玉山 , 王海东《无偏预测理论在经验贝叶斯分析中的应用》严惠云 , 师义民《Linex损失下股票投资的贝叶斯预测》卜祥志 , 王绍绵 , 陈文斌 , 余贻鑫 , 岳顺民《贝叶斯拍卖定价方法在配电市场定价中的应用》刘嘉焜 , 范贻昌 , 刘波《分整模型在商品价格预测中的应用》《Bayes方法在经营决策中的应用》《决策有用性的信息观》《统计预测和决策课件》《贝叶斯经济时间序列预测模型及其应用研究》《贝叶斯统计推断》《决策分析理论与实务》

基于稀疏贝叶斯学习的稀疏信号表示ISAR成像方法

这个问题正好代表了频率派和bayes派各自对概率的解释。在二十世纪中前期，两派就这个问题吵得不可开交啊（其实他们都是在柯氏公理体系下工作，分歧就在于对概率的解释，各方都认为真理在自己手中），频率派旗手有Fisher和Richard von Mises，bayes派旗手有Ramsey和de Finetti。
但现在似乎没人再去操心这个问题，毕竟统计方法的好坏最终还是要看实用效果，在这点上两派的表现都不错。翻了下《数理统计简史》，陈希孺认为“这两派有着不同的适用情况，应是一种补充的关系：可以不执着于任何一派的观点，而是各取所长，为我所用”。
经典统计和贝叶斯都用LIKELIHOOD FUNCTION,只是贝叶斯需要再乘以一个先验分布，然后得出无线趋近的参数的后验概率分布。
首先，不要纠结于算先验概率后验概率这些。所谓贝叶斯观点，就是在数据之外加入了主观因素。先验后验概率只是贝叶斯观点应用的一个例子。

而贝叶斯观点被诟病的地方也就是有人认为数据分析不应该加入主观因素。一般教科书上论及贝叶斯和频率学派，都是基于参数模型。可是参数模型本身就是一种主观的先验假设，这应该是频率学派一个致命的弱点。

随着计算工具的进步，更有用的，也是更多关注的热点，是非参数的模型（例如统计学习理论）。实际上可以把非参数模型看作有很多很多，甚至无穷多个参数。这个时候如果不对参数加以先验的限制，则必然会导致模型效果很差（overfitting）。

另一方面，如果一切都从贝叶斯的观点出发，很多理论分析会陷入困境。想象一下：总体均值都没有了，样本均值收敛到谁去？大数定律都没法用了！

为什么说有一种趋势是把频率和贝叶斯结合起来，这里我举一个例子，比方说岭回归。你可以从贝叶斯的观点看，把正则项看作引入了一种先验。也可以从频率派的角度做理论分析，正则项的引入是为了得到方差-偏差平衡（Bias-Variance tradeoff）。很多（有用的）统计模型都可以像这样子从这两方面同时诠释，一定要区分他们……可能更多的是哲学问题了。
频率学说其实也有主观因素比如所有的分析方法都基于一些ASSUMTPIONS 而且我们可以基于不同情况可以做ONE TAIL OR TWO TAILS TEST，并且SET不同的 %， say 5% 10% or 1% 还有SAMPLING METHORD的时候当然也融入了主观的取样方法并且我们都不能保证的到的数据可以代表母体。
不论贝叶斯还是频率学说都用了LIKELIHOOD FUNCTION, 不同的是贝叶斯乘以了参数的PORIOR DISTRIBUTION,也就是一个先验概率分布。在贝叶斯中重要的就是我们邀要选择合适的有说服力的分布，比如BERNOULLI DISTRIBUTION, (EXTRA)BINOMINAL DISTRIBUTION,(EXTRA) POSSION DISTRIBUTION, PORIOR 等等。
Bayesian和frequentist在实际上最大的区别是frequentist比较关心asymptotic, Bayesian不太关心这个问题. Bayesian关心的是对于手头数据的inference, 而不是如果这件事情重复发生很多次的时候会发生什么问题. 不过frequentist的asymptotic也有很强大的地方, 它能比较客观地分析model的优劣.

从哲学上说, Bayesian把概率当成degree of belief, 当成逻辑的延伸, 而frequentist把概率当成客观存在的东西. 这也是为什么frequentist看重asymptotic. 在这方面我推荐E.T. Jaynes的这本书:http://book.douban.com/subject/3629804/
这本书不能教你怎么用Bayesian, 不过主要是理清Bayesian所用的逻辑, 并且反驳frequentist的一些做法.

至于如果确定先验概率, 我举一个简单的例子: 假如你是一位专业人士, 我想知道你对于这个新疗法是否有效的先验概率. 我可以先给你描述两个情景, 一个是抛一个fair coin, 正面的话你赢10块钱; 另一个是新疗法有效的话给你十块钱. 如果你选了疗法有效, 那么说明你觉得有效的prior belief大于50%. 下一步我可以再让你从两个情景中二选一, 一个是抛两次硬币其中有一个正面就给你10快, 另一个是新疗法有效给你10块, 如果这次你选了抛硬币, 就说明你的prior belief介于50%-75%之间. 以此类推.
貌似频率学派导出的模型都可以用贝叶斯的观点解释。即使你用样本均值估计总体均值，标准的频率派的做法，那也是有先验的：总体均值以一个广义的均匀分布取值任意实数，也就是无任何先验的先验～～而这种先验，在你估计的参数明显应该取正数的时候（比如寿命），是不对的。

“不过frequentist的asymptotic也有很强大的地方, 它能比较客观地分析model的优劣.”
比如 frequentists中的AIC BIC Chi^2 ，这些对看MODEL的优劣很有帮助
我想看的是两个模型在替换一个中间变量时会影响到多少VARIANCES的改变由此推出哪个模型可能更适宜结实我的outcomes.
不知Bayes有无此类运算方法

“至于如果确定先验概率, 我举一个简单的例子: 假如你是一位专业人士, 我想知道你对于这个新疗法是否有效的先验概率. 我可以先给你描述两个情景, 一个是抛一个fair coin, 正面的话你赢10块钱; 另一个是新疗法有效的话给你十块钱. 如果你选了疗法有效, 那么说明你觉得有效的prior belief大于50%. 下一步我可以再让你从两个情景中二选一, 一个是抛两次硬币其中有一个正面就给你10快, 另一个是新疗法有效给你10块, 如果这次你选了抛硬币, 就说明你的prior belief介于50%-75%之间. 以此类推. ”

陈希孺《数理统计引论》，不知道英文有什么参考资料。陈书的下载：http://www.pinggu.org/bbs/thread-108736-1-1.html
首先是估计二项分布中正事情发生概率的参数\theta，在书中132-133页，比较好懂。由所谓“同等无知”的原则，可以推导出频率就是先验为(0,1)均匀分布下的\theta分布的后验均值。
而对于一般的可取任意实数值的位置参数，样本均值可以看做一系列先验分布下的后验分布的均值的极限，于是从数学上完备性的角度来考虑，样本均值也就是一种广义贝叶斯估计。具体的理论讨论涉及到测度论，泛函分析等知识，可以参考陈书的142-145页，甚至Wald的statistical decision functions。
比如 frequentists中的AIC BIC Chi^2 ，这些对看MODEL的优劣很有帮助
我想看的是两个模型在替换一个中间变量时会影响到多少VARIANCES的改变由此推出哪个模型可能更适宜结实我的outcomes.
不知Bayes有无此类运算方法，AIC本身很难看作频率派的想法吧，它的2啊，对数函数啊，怎么来的都不知道，只能说是主观给定的对变量个数的 regularization。而BIC，恰恰是Bayesian Information Criterion的缩写……事实上可以证明，AIC在大样本的时候不会收敛到真实模型，而BIC则会收敛。这正好说明漫无目的的YY比不上从贝叶斯观点出发的YY。
如果楼主是为了看贝叶斯方法如何处理线性回归模型里的方差，建议找找我前面提到的关于岭回归（ridge regression）的资料，这个是最简单也是比较完美的一个例子。
chi-square也可以看做是贝叶斯方法。参考http://en.wikipedia.org/wiki/Pearson's_chi-square_test#Bayesian_method
hierarchical model不就是bayesian model吗？频率学派也有一个hierarchical model？

2. 枢轴统计量是什么东东？

3. 经验贝叶斯我一直认为只是一种计算方法，或者说折中方法，或者说，他只有工程意义，没有理论意义，难道他能作为频率学派和bayesian学派同等的一个学派？

4. 你上边说的“另一方面，如果一切都从贝叶斯的观点出发，很多理论分析会陷入困境。想象一下：总体均值都没有了，样本均值收敛到谁去？大数定律都没法用了！ ”，但是在上边的贴子里提到“你对无偏估计的论断我也不同意，因为你的定义本身不合理。如果t是随机变量，你可以用E[T|t]=t,或者在由边际分布得到E[T]=m，一个独立于t的量。”好像说的就是你说的这个问题。

5. 上帖中提到，“频率学派的困难在于如何利用前人已有经验和枢轴统计量的构造。”按我的理解，非full bayesian方法一般是用正则化，比如你提到的Ridge Regression, 或者现在研究比较多的基于图论的模型label propagation(图中相互有连接的节点的值应该尽量相等)。但是频率学派真能够解释正则化吗？再则，正则化本来就是基于先验知识的，按你说的bayesian的特征就是利用先验知识，那么频率学派会怎么办呢？1. 关于hierarchical model，比方说估计粮食产量的时候需要先估计粮食的播种量，这是频率学派们能解决的问题。其实你也可以说这是一个贝叶斯网络，是一个经验贝叶斯模型。所以我觉得一定要区分贝叶斯和频率派没必要。
2. 枢轴量是一个很多情况下很难算的一个东东。
3. 我认为经验贝叶斯是一个好东西。我不知道Chen_1st怎么定义“理论意义“，反正我觉得大多数情况下它比full贝叶斯更合理。主观感觉也是之前经验的积累，不是么？经验贝叶斯只是把经验量化了。
4. 关于无偏估计。好吧，如果贝叶斯们用E[T|t]=t这种trick，确实也能得到有意义的理论结果。但是会绕来绕去很麻烦，不漂亮，不如频率派关于渐进性的解释直观明确。恩，数学上不漂亮的东西我不喜欢。
5. 关于正则化。这是一个很有意思的东西，有机会再详细说。

关于楼主提到的那个文章，感觉Chen_1st的理解主要是在数学层面，当然那个文章本身强调的就是这种数学上的结论。但既然是讨论统计，我觉得还是更应该关注数学结论的统计意义，"p(y, theta| alpha, beta)中的theta我们不感兴趣"这种事情在统计上是不太可能发生的。
楼主对共轭分布应该是理解了：）不过我总觉得共轭分布这个概念的统计意义有限，它适用的范围（也就是楼主找到的那几种情况）太窄了。我觉得不必太在意conjugate prior吧. 这个只是让计算更方便, 但是相对的对prior的选择余地更少了. 我的一个老师读phd的时候正好mcmc刚刚问世. 她说在没有mcmc的黑暗年代里, Bayesian只能用conjugate prior做一些toy example, 有了mcmc就可以做比较复杂的模型了. 如果有hierarchical structure, 那么就很难找到有conjugate prior, 用数值积分的话参数又不能太多. 用了mcmc, 我算一个有30万个参数的模型也只用几个小时而已.
"有hierarchical structure, 那么就很难找到有conjugate prior" 的意思是, joint posterior distribution就不是conjugate的了. 你说的conjugate prior应该是指full conditional distribution (the distribution of a single parameter, condition on all other parameters and data) 还是conjugate.

但是Bayesian分析最后看的是joint posterior distribution. full conditional distribution是conjugate的好处是mcmc的时候要用到这个东西, 如果是conjugate的话比较容易随机生成. sian受到抨击也是有其道理的，先验的选择至关重要，我是深刻体会到了。conjugate其实只是有利于计算吧，能把我们不关心的量积分掉，从而只处理我们关心的变量，在gibbs中这就是collapsed gibbs的本质吧。最小二乘对应的稀疏正则化策略就是Lasso了吧？这玩意和岭回归的差别就在于一个是L1，一个是L2吗？或者说一个受outliers的影响较小，一个较大？本质差别到底在哪儿呢？在对问题没有其他先验约束的情况下，普遍情况下稀疏就一定好么？

假如预测单个随机变量的值，还是拿打靶来说事儿，我打了2.0,-3.0, 1.0, 4.0，若取最小均方误差来预测的话，预测值是0（均值），若取最小绝对值误差预测的话，预测值可取1到2之间的任意值（中位数），比如取1.5吧。那么这两个预测值哪个更好一些呢？直观来看应该是均值更靠谱一点，但若是记打靶成绩的过程中偶然写错了，混进去一个100.0什么的，中位数又会比均值靠谱得多。

总感觉在做优化的时候，选哪种正则化还是没什么太通用的说法，还是得选完了看效果。有没有某种具体的衡量标准，比如检测outliers的偏离程度什么的，然后根据这标准来采用相应的正则化策略呢？这似乎又回到各种正则化策略之间的本质区别是什么的问题上了。除了L1和L2，还有哪些正则化策略是常用的呢？把outliers尽可能地去掉之后，岭回归和Lasso的结果是不是差不多呢？outlier搞的那个是rubust loss吧，也有人把lasso的Squared loss改成Huber’s loss来分析
岭回归的特点是相关性强的变量一起被shrink，但不至于被剔除出模型
lasso的Sparse特点有应用背景，比如基因上的p>n还要研究其机制
Elastic Net就是在这种背景下提出来的吧（oracle？），既要选变量又要把关联变量一起选
正则化方法的比较在几位统计大牛那里有做过，但我没看过具体的。。。这个岭回归介绍并不能说明频率学派可以利用先验知识。这样说好像还不准确，更准确地说，既然频率学派和bayes的差别就是能不能利用先验知识，那么频率学派会无视先验知识吗？

现在的问题是：什么才是频率学派观点的岭回归（不是什么是岭回归）？

用bayesian观点解释正则化比较容易理解。L2正则化假定参数服从高斯分布N(0,1)，L1正则化假定参树服从另一种分布，呵呵，忘了叫啥了，这两种分布都有一个共同特点，就是越接近0，概率越大，所以正则化之后，模型参数会尽量取绝对值较小的值。

观察高斯分布N(0,1)，会发现接近0的值在高斯分布中概率较大，但0值本身并没有统治性优势，所以用它作先验，参数值会很小，但参数值为0的情况很少，所以模型并不稀疏，L1正则化所采用的先验分布则不同，模型会很稀疏。

为什么喜欢参数值小的（或稀疏的）模型？因为如果有多维共线性的情况，模型中共线性的两维数据的参数可能会取很大的值，波动性很大。

高维情况下，根据EoSL的说法，先用L1。岭回归是从正则化的角度推出来的～可以看作纯从计算的角度出发，跟统计背景无关。病态问题的正则化本身是数学的一个研究领域。
而偏差方差那部分，则是从频率派的角度解释岭回归的好处。没有打算说明频率派利用了先验知识什么的。另外可以像你说的那样从贝叶斯的角度解释岭回归的好处，这是我还没提到的。
我的观点是，岭回归是一个好的方法，也只是方法。你可以从不同的角度去诠释它，频率派也好，贝叶斯也好，都是把某种哲学意义上的东西附着在方法上。我觉得有意义的统计学是去发现好的方法，并从各种角度诠释它的好处；而不是纠结于一个方法必须归属于哪个学派哪种哲学。

L1正则项对应的贝叶斯先验好像是拉普拉斯分布。

另外，robust在统计里一般翻译成稳健性。
然后，我觉得sparsity好像很难用贝叶斯的观点解释？这两年关于L1 regularization与sparsity关系的理论分析，比如B. Yu的文章，都是在真实参数b固定且是sparse的假设下才有好的结果。“几十年来两个学派争论不休，都曾经相互断言对方的必将灭亡”，这又是为什么呢？

不难理解为什么频率学派认为bayesian必将灭亡, 因为“无信息先验已经被证明是不存在的。所有的先验在参数变换后都不可避免的带有主观性。”

那么从bayesian学派观点看，频率学派的死穴在哪里呢？
《On Regularization and the Prior》的文档时，作者提到：There
are still many active research about this topic: learning the prior from the data. 也就是说可以从数据学习出概率模型参数的先验分布，然后应用相应的正则化策略？有哪些相关的研究工作呢？关于ridge regression，我记得以前上课有一个作业就是算MSE，会发现根据你的regularization parameter不同，bias和variance之间存在一个trade-off，再进一步解释的话，就是假设coefficient服从normal distribution。
关于sparsity，看那个菱形+椭圆 & 正圆+椭圆的图就很清楚了。用L2 norm的话，产生sparsity的概率测度是0。
据说（只是据说，求证实），lasso用来预测或者分类的效果不好，而ridge就要好得多，elastic net结合两者的优点。

图像处理中不适定问题

图像处理中不适定问题（ill posed problem）或称为反问题（inverse Problem）的研究从20世纪末成为国际上的热点问题，成为现代数学家、计算机视觉和图像处理学者广为关注的研究领域。数学和物理上的反问题的研究由来已久，法国数学家阿达马早在19世纪就提出了不适定问题的概念:称一个数学物理定解问题的解存在、唯一并且稳定的则称该问题是适定的（Well Posed）.如果不满足适定性概念中的上述判据中的一条或几条，称该问题是不适定的。典型的图像处理不适定问题包括：图像去噪（Image De-nosing），图像恢复（Image Restorsion），图像放大（Image Zooming），图像修补（Image Inpainting），图像去马赛克（image Demosaicing），图像超分辨(Image super-resolution )等。
迄今为止，人们已经提出许多方法来解决图像处理中的不适定性。但是如何进一步刻画图像的边缘、纹理和角形等图像中重要视觉几何结构，提高该类方法在噪声抑制基础上有效保持结构和纹理能力是有待深入研究的问题。

1 不适定图像处理问题的国内外研究现状评述

由于图像处理中的反问题往往是不适定的。解决不适定性的有效途径是在图像处理中引入关于图像的先验信息。因此图像的先验模型对于图像反问题和其它计算机视觉还是图像处理问题至关重要。对于图像的先验模型的研究，研究者们从多个角度进行研究，其代表主要有“统计方法”和“正则化几何建模方法”，“稀疏表示方法”三种主流方法，而最近兴起的图像形态分量分析（MCA）方法吸引了大批国内外研究者的广泛关注。
1.1 正则化几何模型日新月异
关于自然图像建模的“正则化几何方法”是最近几年热点讨论的主题。其中一类方法是利用偏微分方程理论建立图像处理模型，目前的发展趋势是从有选择性非线性扩散的角度设计各类低阶、高阶或者低阶与高阶综合的偏微分方程, 或者从实扩散向复扩散推广, 从空域向空频域相结合以及不同奇异性结构的综合处理[1]。
另一类方法是基于能量泛函最优的变分方法。1992年，Rudin-Osher-Fatemi 提出图像能被分解为一个属于有界变差空间的分量和一个属于的分量的全变差模型 [2]。根据国际上及本人的研究表明：ROF模型模型较好地刻画了图像中视觉重要边缘结构，但不能描述纹理信息。2001年Meyer提出了振荡模式分解理论[2]：他认为振荡分量可以表示为某个向量函数的散度形式，而振荡分量可以属于3个可能的函数空间。首先引入有界变差(bounded variational , BV) 空间的一个近似对偶空间来表征图像的振荡分量；Meyer进一步指出John-Nirenberg的有界均值振荡空间和齐性Besov空间都是振荡分量比较合适的函数空间，由此导出了将图像分解的（BV,G）模型,（BV,F）模型和（BV,E）模型。Meyer从理论上基本解决了振荡分量的理论框架，成为纹理等振荡模式分解的奠基性工作，但是原始模型比较难计算。后来的学者大都在Meyer工作的基础上展开工作。Vese-Osher提出将振荡分量建模为的向量场的散度来逼近（BV,G）模型[3]，实质上是将G空间近似为负Soblev空间 [4]。L.Lieu和L.Vese进一步推广到分数阶负Soblev空间 [5]。Aujol,Chamboll等人定义了G-空间中的一个子空间，并根据Chamboll早期提出的ROF模型的投影算法的基础上，提出图像的振荡分量是在该子空间上的投影分量，由此提出了著名的BV空间半范 + G空间范数 + L2 范数约束优化的A2BC模型及子空间投影算法 [6-7]。J.B.Garnet，T.M.Le,Y.Meyer, L.A.Vese提出更一般的齐性Besov空间来刻画振荡分量 [8]。最近，J.Aujol, A.Chamboll分别对TV范数、G范数、F范数、E范数，L 2 范数对图像的卡通图像、纹理分量、高斯噪声进行数理统计和相关性分析，提出了分别运用TV范数、G范数和E范数分别来约束图像的卡通分量、纹理分量和噪声分量的三分量图像分解模型[9]。2007年，G.Gilboa 和S. Osher受提出了非局部化G-空间的概念，并概括性的初步提出了非局部ROF模型、非局部Meyer模型、非局部ROF+L1模型[10]，从理论上提供了图像先验模型研究的新思路。但综合目前研究来看，变分方法的主要不足是对于纹理和噪声的刻画还不够精细。

1.2 稀疏表示方兴未艾

图像的稀疏表示问题最早源于“有效编码假说”。Attneave最先提出：视觉感知的目标就是产生一个外部输入信号的有效表示。在神经生物学领域Barlow基于信息论提出了“有效编码假设”，认为初级视皮层神经细胞的主要功能就是去除输入刺激的统计相关性[11]。“有效编码假设”被提出以后，很多研究人员根据它的思想提出了不同的理论。主要思路分为两大类。直接方法是机理测试方法，即从生物机理上，在自然图像刺激条件下检测神经细胞的响应特性。著名的工作如：2001年在《Nature》上发表的研究结果表明，在冗余性测度和自然刺激条件下一组视网膜神经节对外界刺激独立编码[12]；2000年在《Science》上发表了类似的成果[13]：通过记录短尾猿 V1 区神经细胞在开放的自然场景和模拟自然场景条件下的神经细胞响应，验证了视皮层（V1 区）神经细胞用稀疏编码有效表示自然场景，稀疏编码用最小冗余度传递信息。另外一个替代的方法是模型仿真方法，即利用自然图像的统计特性，建立模型模拟早期视觉处理系统的处理机制。例如Olshausen 和 Field[14] 提出了稀疏编码模型，稀疏编码理论表明，通过寻找自然图像的稀疏编码表示，该神经网络可以学习得到类似于简单细胞感受野的结构。Bell提出了基于信息最大化的无监督算法，通过度量“因子”的联合信息熵并且使之最大化，扩展了独立成分分析（ICA）方法，成功地构建有效编码模型并得到了与上面类似的结果[15]。Hyvarinen 更进一步，应用一个两层的稀疏编码模型构造出类似于复杂细胞响应特性的基函数，而且基函数集合形成一个有规律的拓扑结构[16]。这部分表明有效编码假设也可适用于视觉系统高级区域神经细胞的处理过程。
目前关于图像稀疏表示系统的研究大体上沿着两条主线展开。其中一条是沿着多尺度几何分析理论。研究者认为图像的非平稳性和非高斯性，很难用线性算法进行处理，而应该建立合适的能够处理边缘到纹理各层面几何结构的图像模型；二维图像中的性状奇异性边缘和3-D 图像中丝状物(filaments) 和管状物(tubes)几何特征不能被各向同性的“方块基”（如小波基）表示，而最优或者 “最稀疏”的函数表示方法应该由各向异性的“锲形基”表征。因此以Ridgelet、Curvelet、Bandlet, Contourlet变换为代表的多尺度几何分析[16-22]理论成为图像稀疏表示的有效途径。图2.1.1(a)给出了二维可分离小波在不同分辨率下逼近曲线的过程，随着分辨率升高，尺度变细，最终表现为使用众多的“点”来逼近曲线。

与小波相比，contourlet不仅具有小波的多分辨率特性和时频局部化特性，还具有很好的方向性和各向异性，即在尺度j时，小波基的支撑域边长近似为，而Contourlet的在该尺度下的基函数支撑域的纵横比可以任意选择。图2.1.1(b)为用Contourlet基函数的支撑域来逼近曲线的过程，由于它的基函数的支撑域表现为“长方形”，因而是一种更为有效稀疏的表示法。与二维可分离小波基函数的方向支撑域的各向同性不同，Contourlet基的“长方形”支撑域表现出来的是各向异性(anisotropy)的特点。
上述稀疏表示方法都是采用“单一基”，另外一条图像稀疏表示的途径是：基函数被称之为原子库的过完备的冗余系统取代。Mallat和Zhang于1993年首先提出了信号在过完备库(over-complete dictionary)上分解的思想[23]. 通过信号在过完备库上的分解,用来表示信号的基可自适应地根据信号本身的特点灵活选取以得到信号非常稀疏的表示. 后来人们提出了诸如基追踪算法、匹配追踪算法（MP）、正交匹配追踪算法（OMP）、混合匹配追踪算法（HMP）及许多变种。涉及的原子包括多尺度Gabor函数，各向异性的精细原子，小波和正弦函数的级联[24-15]等，并通过训练方法获得结构和纹理分量稀疏表示字典[26-28] 。
目前图像稀疏表示的研究也引起国内众多研究者的关注。中科院杨谦、汪云九等人，中科院计算所史忠植研究员，西安电子科技大学的焦李成教授、华南理工大学谢胜利教授，西南交通大学尹忠科教授等，南京理工大学韦志辉教授，肖亮博士等纷纷展开了稀疏表示的相关问题的研究。目前图像稀疏表示的研究成为近3年国内众多研究者关注的热点问题，根据<<中国期刊全文数据库>>的检索来看，在2004年之前几乎没有相关报道，而从2004年1月至2008年2月，中国期刊发表的图像稀疏表示与多尺度几和分析应用方面的论文达到187篇,其中关于Ridgelet 56篇，关于Contourlet 63篇，关于 Curvelet 34篇，关于过完备稀疏表示34篇。西安电子科技大学的焦李成教授、华南理工大学谢胜利教授，西安交通大学尹忠科教授、国防科技大学王正明、教授及课题组成员等纷纷展开了基于稀疏表示的相关应用问题的研究[29-33]。本文作者在基于多尺度几何分析的图像增强、去噪、融合、边缘检测、感知压缩和数字水印等展开了相关应用研究，研究结果表明，基于稀疏表示的形态分量分解理论能够很好的捕获图像的几何特征，在图像建模和处理方面具有先天优势。但是综观国内的这些研究还与国外原创性成果具有很大差距。特别在稀疏表示字典的构造、高效稀疏分解算法、稀疏性重建等层面均有大量工作可做。

1.3 形态分量分析暂露头角

MCA方法是国际著名学者J.-L. Starck, M. Elad, D.L. Donoho 在2004年提出的一种将图像分解为 “几何结构”、“纹理”、“噪声”的形态分量分解方法[34]。该方法与混叠信号盲分离在本质上近乎相同，和独立分量分析（ICA）具有紧密联系。在MCA提出之前，图像分解的研究如火如荼。主要包括“基于稀疏表示的图像分解”和“基于变分方法的图像分解”。MCA方法较好的结合了变分方法和稀疏表示方法两类图像分解的优点，为不适定图像处理问题提供了良好的处理机制。
首先从关于图像形态分量分解的变分方法来看，国际上研究的研究朝着对图像结构和纹理等形态成分刻画更精细、计算更简单的方向发展。图像分解的（BV,G）模型,（BV,F）模型和（BV,E）模型在本质上就是一种形态分量分析方法。
与基于变分方法的图像分解处理思路不同，J.L.Stack,M.Elad 和 D.L.Donoho的MCA框架中，一个重要的假设是图像的几何结构和纹理分量在某个特定的基库或过完备子字典下是类内稀疏的，而各形态分量稀疏表示的基库或过完备子字典之间具有不相干性。通过关于结构分量和纹理分量的分类稀疏表示稀疏的强稀疏性（l0 范数或l1 范数度量）达到图像形态分量的有效分离。由于目前所涉及的稀疏表示系统有三类：正交系统（如DCT,DWT）；冗余系统（如Curvelet, Contoulet）；过完备字典（如AR-Gauss混合字典）。随着稀疏表示理论的发展，通过不同的分类稀疏表示字典、稀疏性度量和正则化方法，可以导出不同的图像形态分量分析算法[35]。之后学者们对MCA中形态成分稀疏性和多样性[36]、自适应投影阈值选取[37]等问题作了研究，并推广到多通道情形[38] 。
1.4 统计模型经久不衰
关于自然图像“统计建模方法”的研究由来已久。早期的研究工作，很大程度上受David Field在20世纪80年代中期的一个重要发现所推动：自然图像的滤波器响应总是呈现出较大的峰度的统计性质[39]。经典小波分析之所以在信号和图像处理中取得重大成功，一个比较重要的因素是对小波变换域统计模型的研究取得重大进展，主要包括小波域的MRF模型，小波域隐马尔科夫模型和分层隐马尔科夫模型等。随着多尺度几何分析的兴起，人们对于Ridgelet、Curvelet、Bandlet, Contourlet变换域的统计模型相当关注。事实上，稀疏表示系数的直方图的峰度要远远大于3，呈现明显的非高斯性，这表明非高斯性蕴含图像的本质特性。
例如，对Cameraman图像的Contourlet系数进行分析。观察上面的分布可以发现，Contourlet系数呈现明显的重尾分布。考察直方图的峰度(Kurtosis)

经计算，峰度值远远大于典型的高斯分布Kurtosis值（大约为3）。
许多单变量先验模型比如广义高斯模型、学生t-distribution模型已经被成功地用于自然图像的小波系数的这种非高斯统计特性。最近，学者们开始关注自然图像滤波器响应的联合统计行为。Zhu S.C较为全面的论述了自然图像视觉模式的四种主流的统计研究方法，并从信号的稀疏表示出发论述了包括多个Markov随机场模型及其变种[40]。焦李成等比较研究了多尺度变换域包括隐马尔科夫树（HMT）、背景隐马尔科夫模型（CHMM）等在内的10种统计模型[41]。

0 0