隐性语义索引

来源：互联网发布：淘宝店铺上传图片大小编辑：程序博客网时间：2024/04/27 16:14

1. 引言


自然语言文本中的词汇(术语)具有一词多义(polysemy)和一义多词(synonymy)的特点.
由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西; 由于一义多词,
基于精确匹配的检索算法又会遗漏许多用户想要的东西.

下面是一个例子:

设Doc1, Doc2, Doc3是三个文件. 一些术语在这三个文件中的出现情况如下表:

            Doc1          Doc2         Doc3
--------------------------------------------------
access       X                                          document     X
retrieval    X                          X
information                X*           X*
theory                     X
database     X
indexing     X
computer                   X*           X*
--------------------------------------------------

这里, 假定用"information" 和"computer"作为主题词进行检索, 那么Doc2和Doc3与之
精确匹配, 因而中选. 然而, Doc2是用户并不想要的文件, Doc1才是想要的查不出来,
不想要的倒查了出来. 这说明精确匹配不能很好地反映用户的意图. 那么有没有更好的
办法呢?

当然, 如果能基于自然语言理解来做这件事, 那一切问题就都没有了. 问题是:
(1) 自然语言理解的目前水平还是有限度的; (2) 即使用自然语言理解, 效率也会很低.
我们希望找到一种办法, 既能反映术语之间内在的相关性, 又具有较高的效率.

Bellcore以Dumais为首的研究小组提出了一种称为"隐性语义索引"的方法, 试图绕过
自然语言理解, 用统计的办法达到同样的目标. "隐性语义索引"的英文名字为
"Latent Semantic Indexing", 简称LSI.

2. LSI的做法

首先, 以术语(terms)为行, 文件(documents)为列做一个大矩阵(matrix). 设一共有
t行d列, 矩阵名为X. 矩阵的元素为术语在文件中的出现频度.

数学上可以证明: X可以分解为三个矩阵T0, S0, D0'(D0的转置)的积. 其中T0和D0的
列向量都是正交归一化的, S0是对角矩阵. T0是t*m矩阵, S0是m*m矩阵,D0是d*m矩阵,
m是X的秩. 这种分解叫做单值分解(singlar value decomposition,简称SVD).

                        X=T0*S0*D0'

一般要求T0, S0, D0都是满秩的. 不难做到把S0的元素沿对角线从大到小排列.

现在, 把S0的m个对角元素的前k个保留, 后m-k个置0, 我们可以得到一个新的近似的
分解:

                        Xhat=T*S*D'

奇妙的是, Xhat在最小二乘意义下是X的最佳近似! 这样, 我们实际上有了一个"降维"的
途径. 下面要说明, T, S, D三个矩阵在文件检索中有重要的应用价值.

一个遗留问题是k到底取多大. k越大失真越小, 但开销越大. k的选择是按实际问题的
要求进行平衡的结果.

给定矩阵X, 基于X可以问三类同文件检索密切有关的问题:

(1) 术语i和j有多相似?

(2) 文件i和j有多相似?

(3) 术语i和文件j有多相关?

第一类问题是术语的类比和聚类问题;

第二类问题是文件的类比和聚类问题;

第三类问题是术语和文件的关联问题.

下面我们用Xhat来进行这三类比较.

3.1 比较两个术语

做"正向"乘法:

                Xhat*Xhat'=T*S*D'*D*S*T'=T*S^2*T'

(D'*D=I, 因为D已经是正交归一的). 它的第i行第j列表明了术语i和j的相似程度.

3.2 比较两个文件

做"逆向"乘法:

                Xhat'*Xhat=D*S*T'*T*S*D'=D*S^2*D'

(T'*T=I, 因为T已经是正交归一的). 它的第i行第j列表明了文件i和j的相似程度.

3.3 比较一个文件和一个术语

恰巧就是Xhat本身. 它的第i行第j列表明了术语i和文件j的相关联程度.

3.4 查询

可以把主题词的集合认为是一个虚拟的文件. 查询的任务说白了是把这个虚拟的文
件和其他文件做相似性比较, 挑选最相似的出来(挑选到什么程度打住, 要看实际问题
的要求）

*********************

以上极简略地介绍了LSI的做法. 实验表明, 这一做法可以收到很好的效果, 在基于
内容的查询和信息过滤等方面有很好的前景.