迹，最大平均差异，核函数等基本概念理解

来源：互联网发布：泳道图制作软件编辑：程序博客网时间：2024/04/27 23:38

1）trace（x）,x为一方阵。求二维方阵的迹，即该方阵对角线上元素之和（特征值之和）。同一个线性变换，在不同基底下的矩阵虽然不同，但其这些矩阵的迹相同。我们生活的世界是变化的，研究问题就要抓住这些变化中的不变量进行研究。

2)读一些文章时会碰到tied weights 或者weights are tied等说法，意思是比如在autoencoder中，隐藏层的W 和输出的W’。可以选择让W ′ =W T 这时我们称tied weights。

3)域适应中经常用到的术语，maximum mean discrepancy：最大平均差异。在双样本检车中，用于判断两个分布P和q是否相同，以不同的分布生成的样本空降作为函数f的分布，如果由这两个分布生成的足够多的样本在f上对应的输出的均值都相等，那么可以认为这些分布属于同一分布，因此可以用来度量两个分布之间的相似性。（一般会提到最小化最大平均差异）。
具体而言，基于MMD（maximize mean discrepancy）的统计检验方法是指下面的方式：基于两个分布的样本，通过寻找在样本空间上的连续函数f，求不同分布的样本在f上的函数值的均值，通过把两个均值作差可以得到两个分布对应于f的mean discrepancy。寻找一个f使得这个mean discrepancy有最大值，就得到了MMD。最后取MMD作为检验统计量（test statistic），从而判断两个分布是否相同。如果这个值足够小，就认为两个分布相同，否则就认为它们不相同。同时这个值也用来判断两个分布之间的相似程度。

4)核函数：在一些方法中需要假设训练样本是线性可分的，即存在一个划分超平面能将训练样本正确分类。然而在现实任务中，原始样本空间也许并不存在一个能正确划分两类的超平面。
对于这种问题可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。（且若原始空间是有限维的，即属性数有限，那么必然可以找到一个高维特征空间使样本可分。）
由于在求解高维特征空间时需要求解两个特征空间的内积。由于特征空间位数可能会很高，甚至可能是无穷维，因此直接计算其内积非常困难，因此就可以通过核函数的方式求解两个特征空间的内积。此时所用到的函数就称为核函数。

而模型的最优解可通过训练样本的很函数展开，这一展式被称为“支持向量展式”（support vector expansion）.

从数学的角度理解，只要一个对称函数所对应的核矩阵半正定，它就可以作为核函数使用。对于一个半正定核矩阵，总能找到一个与之对应的映射。换言之，对于一个核函数都隐式的定义了一个称为“再生核希尔伯特空间”（reproducing kernel Hilbert Space）的特征空间。

常见的核函数有：
线性核，多项式核，高斯核（也成为RBF核），拉布拉斯核，sigmoid核。
（具体解释可见周志华老师机器学习一书。）

5）正定：一个矩阵对应一个二次型函数,记为 f(x) .其中,f(x)=X ′ AX,X=(x1,x2,...,xn) ′
如果不论 x 取什么值,f(x) 都大于0,即 f(x) 恒大于 0.则二次型正定,矩阵A是正定矩阵.
如果是大于等于 0,就是半正定.

6）正则化：在周老师的书中是这么解释的，正则化可以理解为一种惩罚函数法，即对不希望得到的结果施以惩罚，从而使得优化过程趋向于希望的目标。从贝叶斯估计的角度看，正则化项可认为是提供了模型的先验概率。

reference:
1)http://blog.csdn.net/a1154761720/article/details/51516273

阅读全文

0 0