Topic-Based Vector Space Model

来源:互联网 发布:耳机测试软件app 编辑:程序博客网 时间:2024/04/28 13:04

TVSM是Document Comparison之类应用的基础理论。对一个文档集进行抽象,所有的基本topic都相互正交(独立),构造出一个D维的空间,每个term都由一个向量来表示,例如与文档主题基本不关的of,the等词语的向量权值(长度)就理论上是0,关键词语的权重就接近1,并且和某个坐标轴的夹角很小。文档di就可以用其所有术语的词频乘以该术语的向量求和算得,一般情况下腰归一化,便于计算。而两个文档的相关程度(亦可理解成文档之间的距离)就可以用两个向量的夹角余弦值来表示。

文档之间一旦建立了某种联系,就能够将类似的文档归类索引,所以这同TF-IDF一样是至关重要的理论基础。

具体可参考Jorg Becker & Dominik Kuropka的 《Topic-Based Vector Space Model》这篇老文章。

原创粉丝点击