Topic-Based Vector Space Model
来源:互联网 发布:耳机测试软件app 编辑:程序博客网 时间:2024/04/28 13:04
TVSM是Document Comparison之类应用的基础理论。对一个文档集进行抽象,所有的基本topic都相互正交(独立),构造出一个D维的空间,每个term都由一个向量来表示,例如与文档主题基本不关的of,the等词语的向量权值(长度)就理论上是0,关键词语的权重就接近1,并且和某个坐标轴的夹角很小。文档di就可以用其所有术语的词频乘以该术语的向量求和算得,一般情况下腰归一化,便于计算。而两个文档的相关程度(亦可理解成文档之间的距离)就可以用两个向量的夹角余弦值来表示。
文档之间一旦建立了某种联系,就能够将类似的文档归类索引,所以这同TF-IDF一样是至关重要的理论基础。
具体可参考Jorg Becker & Dominik Kuropka的 《Topic-Based Vector Space Model》这篇老文章。
- Topic-Based Vector Space Model
- Generalized Vector Space Model
- The Classic Vector Space Model
- 向量空间模型(Vector Space Model)
- Vector Space Model (向量空间模型)
- Week3-3The vector space model
- 向量空间模型(vector space model)
- Vector Space Model (向量空间模型)
- Topic Model
- Topic Model
- Topic Model
- Topic Model
- topic model
- Topic Model
- Topic Model
- #Paper Reading# Online Knowledge-Based Model for Big Data Topic Extraction
- 初探IR [1] 向量空间模型 Vector Space Model
- 向量空间模型(VSM:Vector space model)
- POJ 1664
- POJ 1847
- Excel二进制结构查看工具:BiffView++
- String类中toCharArray()方法的用法
- POJ 1950
- Topic-Based Vector Space Model
- AutoFlowchart V3.0 发布! 免费的东东
- 结构型模式总结
- String类中getBytes()方法的用法
- 2010新开始
- 第一个有窗口的程序,写于大一的暑假
- 气质的培养(哈佛管理世界)
- boost::filesystem使用手册
- StringTokenizer类的用法