相似度计算

来源:互联网 发布:centos iso镜像 下载 编辑:程序博客网 时间:2024/06/10 01:42

1. 相似度计算

1.1 概念

从多个维度分析两组数据的相似度,比如大的文本使用word2vec转成向量,类别根据最大的类别数量N拆成n维0或1表示的vector,数值类型归一化之后表示一个维度,然后根据cos、L1、L2等方式计算相似度

1.2 用处

可以用于推荐系统、协同过滤等算法

1.3 细节

注意double值的精度处理

1.4 公式

1.4.1 COSINE

将向量根据坐标值,绘制到向量空间中。如最常见的二维空间。
  求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。

1.4.2 L1

标明两个点在标准坐标系上的绝对轴距总和。出租车几何或曼哈顿距离(Manhattan Distance)是由十九世纪的赫尔曼·闵可夫斯基所创词汇,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和

 然后根据 s = 1/(1+d)计算相似度

1.4.3 L2

欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)