向量空间中的相似度度量方法

来源:互联网 发布:输入法linux版 编辑:程序博客网 时间:2024/05/18 00:06

Similarity in vector Space

Cosine Distance

向量空间中的相似度度量方法

Euclidean Distance

向量空间中的相似度度量方法

Manhattan Distance

向量空间中的相似度度量方法

Chebyshev Distance

向量空间中的相似度度量方法

Jaccard Coefficient

向量空间中的相似度度量方法

Similarity in probabilistic space

生成模型将文档表示为概率分布。为了比较两个文档的相似性(概率分布的相似性),给出如下基于信息论的距离比较方法[5]。另另p={p1,…, pR}q=p={q1, …, qR}为同一变量的概率质量函数。这两个概率分布的Kullback-Leibler(KL) 距离定义为:

向量空间中的相似度度量方法

 

KL的取值是非负、非对称的,当两个分布完全相同时,取值为0.

Jensen-Shannon (JS)距离是KL的一个对称、光滑版本:

向量空间中的相似度度量方法

 

Hellinger距离:

向量空间中的相似度度量方法

 

其中向量空间中的相似度度量方法Bhattacharyya 系数,余弦相似度的概率分布版本。

0 0