Semantic matching & Semantic correlation matching

来源:互联网 发布:淘宝找回密码系统繁忙 编辑:程序博客网 时间:2024/05/18 04:19

1、算法简介

  在跨媒体交叉检索领域,一个可行的子空间学习方法是在一个抽象的高层(可以看做是语义层)表示原始数据。以图像和文本为例,通过某种监督学习算法把原始图像空间I和文本空间T映射到相应的图像语义子空间SI和文本语义子空间ST。两者的语义子空间是由相同的语义概念库模型生成的,假设抽象的高层语义概念共有K个,即V={v1,...,vK},两个语义子空间特征向量都代表了对应样本(图像或文本)属于各个语义概念的概率,因此SIST可以看做是相同的子空间,也就可以在这个子空间进行“图像—文本”之间的交叉检索,这就是SM(Semantic matching,语义匹配)算法。而SCM(Semantic correlation matching,语义相关匹配)算法则是先用CCA算法把IT映射到相关子空间,再从相关子空间映射到语义子空间。
  

2、语义匹配SM算法

  此处所用的数据和本人另一篇博客“基于CCA的图像文本交叉检索”中的一样,是维基百科公开数据库。对于训练样本,CCA算法并没有利用到训练样本的标签信息,每个“图像—文本”样本对最后一个数字(范围是1—10)表示该样本对应的种类编号,这10个种类代表的是10个人工标定的语义标签,具体的语义内容在文件“categories.list”中,可用记事本查看,具体如下:

artbiologygeographyhistoryliteraturemediamusicroyaltysportwarfare

  因为训练样本都是从以上10个种类取出的,所以自然而然可以把SM算法中的抽象语义概念的个数K取值为10。设两个映射LT,LI分别把文本原始特征(由10主题的LDA模型生成的10维特征)数据和图像原始特征(128维的SIFT特征)数据映射到后验概率分布,即xPV|X(vi|x),i{1,2,...,K},在本文中K=10,其中x为文本特征T或图像特征I,而PV|X(vi|x),i{1,2,...,K}为语义子空间中的K维概率分布向量。
  一个计算后验概率分布的可行算法是多元逻辑斯蒂回归,这样可以生成一个能够用概率解释的线性分类器,逻辑斯蒂回归通过把数据x代入如下逻辑斯蒂方程来计算样本x属于种类j的后验概率,如下式:
  
  PV|X(j|x;w)=1Z(x,w)exp(wTjx)
  
  其中Z(x,w)=jexp(wTjx)是一个归一化常数,V是种类标签,X是输入空间的特征向量(设为n维,对于维基百科数据库中的图像n=128,对于文本n=10),w={w1,w2,...,wK}(其中wj为对应种类j的n维参数向量,也是逻辑斯蒂回归过程中所要计算的参数)。
  通过上文中的方法可以把10维文本特征和128维图像特征都映射到相同的10维语义子空间,从而计算图像特征和文本特征的相似度,最终实现跨媒体检索。
  以上就是SM算法的主要原理和实现方法。

3、语义关联匹配SCM算法

  相对于SM算法,SCM算法就是把CCA算法和SM算法进行了简单的组合,即先使用CCA算法把图像特征空间I和文本特征空间T映射到相关的子空间I1T1,这时只是利用了两个特征空间中的相关信息,并没有利用训练样本中的标签信息。之后再用SM算法把相关子空间I1T1映射到相同的语义子空间中,之后的处理和SM算法相同。

参考文献:

[1]“基于CCA的图像文本交叉检索”
[2]《A new approach to cross-modal multimedia retrieval》

0 0
原创粉丝点击