Semantic matching & Semantic correlation matching

来源：互联网发布：淘宝找回密码系统繁忙编辑：程序博客网时间：2024/05/18 04:19

1、算法简介

　　在跨媒体交叉检索领域，一个可行的子空间学习方法是在一个抽象的高层（可以看做是语义层）表示原始数据。以图像和文本为例，通过某种监督学习算法把原始图像空间I和文本空间T映射到相应的图像语义子空间SI和文本语义子空间ST。两者的语义子空间是由相同的语义概念库模型生成的，假设抽象的高层语义概念共有K个，即V={v1,...,vK}，两个语义子空间特征向量都代表了对应样本（图像或文本）属于各个语义概念的概率，因此SI和ST可以看做是相同的子空间，也就可以在这个子空间进行“图像—文本”之间的交叉检索，这就是SM（Semantic matching，语义匹配）算法。而SCM（Semantic correlation matching，语义相关匹配）算法则是先用CCA算法把I和T映射到相关子空间，再从相关子空间映射到语义子空间。
　　

2、语义匹配SM算法

　　此处所用的数据和本人另一篇博客“基于CCA的图像文本交叉检索”中的一样，是维基百科公开数据库。对于训练样本，CCA算法并没有利用到训练样本的标签信息，每个“图像—文本”样本对最后一个数字（范围是1—10）表示该样本对应的种类编号，这10个种类代表的是10个人工标定的语义标签，具体的语义内容在文件“categories.list”中，可用记事本查看，具体如下：

artbiologygeographyhistoryliteraturemediamusicroyaltysportwarfare

　　因为训练样本都是从以上10个种类取出的，所以自然而然可以把SM算法中的抽象语义概念的个数K取值为10。设两个映射LT,LI分别把文本原始特征（由10主题的LDA模型生成的10维特征）数据和图像原始特征（128维的SIFT特征）数据映射到后验概率分布，即x→PV|X(vi|x),i∈{1,2,...,K}，在本文中K=10，其中x为文本特征T或图像特征I，而PV|X(vi|x),i∈{1,2,...,K}为语义子空间中的K维概率分布向量。
　　一个计算后验概率分布的可行算法是多元逻辑斯蒂回归，这样可以生成一个能够用概率解释的线性分类器，逻辑斯蒂回归通过把数据x代入如下逻辑斯蒂方程来计算样本x属于种类j的后验概率，如下式：
　　
　　PV|X(j|x;w)=1Z(x,w)exp(wTjx)
　　
　　其中Z(x,w)=∑jexp(wTjx)是一个归一化常数，V是种类标签，X是输入空间的特征向量(设为n维，对于维基百科数据库中的图像n=128，对于文本n=10)，w={w1,w2,...,wK}（其中wj为对应种类j的n维参数向量，也是逻辑斯蒂回归过程中所要计算的参数）。
　　通过上文中的方法可以把10维文本特征和128维图像特征都映射到相同的10维语义子空间，从而计算图像特征和文本特征的相似度，最终实现跨媒体检索。
　　以上就是SM算法的主要原理和实现方法。

3、语义关联匹配SCM算法

　　相对于SM算法，SCM算法就是把CCA算法和SM算法进行了简单的组合，即先使用CCA算法把图像特征空间I和文本特征空间T映射到相关的子空间I1和T1，这时只是利用了两个特征空间中的相关信息，并没有利用训练样本中的标签信息。之后再用SM算法把相关子空间I1和T1映射到相同的语义子空间中，之后的处理和SM算法相同。

参考文献：

[1]“基于CCA的图像文本交叉检索”
[2]《A new approach to cross-modal multimedia retrieval》

0 0