向量距离和相似度

来源:互联网 发布:单片机 arm dsp fpga 编辑:程序博客网 时间:2024/06/07 18:07

1、向量距离度量表示法

欧氏距离:最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。n维空间中两个点x1(x11,x12,…,x1n)与 x2(x21,x22,…,x2n)间的欧氏距离:

曼哈顿距离:曼哈顿距离对应L1-范数,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上,坐标(x1, y1)的点P1与坐标(x2, y2)的点P2的曼哈顿距离为:,要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。

切比雪夫距离,若二个向量或二个点x1和x2,其坐标分别为(x11, x12, x13, ... , x1n)和(x21, x22, x23, ... , x2n),则二者的切比雪夫距离为:d = max(|x1i - x2i|),i从1到n。对应L∞范数

闵可夫斯基距离(Minkowski Distance),闵氏距离不是一种距离,而是一组距离的定义。对应Lp范数,p为参数。

闵氏距离的定义:两个n维变量(或者两个n维空间点)x1(x11,x12,…,x1n)与 x2(x21,x22,…,x2n)间的闵可夫斯基距离定义为: 

其中p是一个变参数。

当p=1时,就是曼哈顿距离,

当p=2时,就是欧氏距离,

当p→∞时,就是切比雪夫距离,       

根据变参数的不同,闵氏距离可以表示一类的距离。 

Mahalanobis距离:也称作马氏距离。在近邻分类法中,常采用欧式距离和马氏距离。


2、向量的相似表示法

夹角余弦(Cosine) 几何中夹角余弦可用来衡量两个向量方向的差异

(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

(2) 两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦

       

类似的,对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度,即:       

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。 

皮尔逊积矩相关系数

皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs, 用r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。

通常情况下通过以下取值范围判断变量的相关强度:
相关系数     0.8-1.0     极强相关
                 0.6-0.8     强相关
                 0.4-0.6     中等程度相关
                 0.2-0.4     弱相关
                 0.0-0.2     极弱相关或无相关

式为:
  • 公式二:
  • 公式三:
  • 公式四:

3、总结

      实际上关联性分析经常用到这些距离和向量方向的夹角、统计上的分布的判断来分析变量,一来分析变量的关联性,防止模型中多个关联的变量纳入对模型的整体效果有影响,逻辑回归中的变量分析会使用;二来针对二个变量可以做相似分析进行分类,推荐系统中的相似度比较也常使用。

4、参考:

https://segmentfault.com/q/1010000000094674

http://blog.csdn.net/v_july_v/article/details/8203674

http://lobert.iteye.com/blog/2024999




1 0
原创粉丝点击