机器学习 之 各种距离

来源:互联网 发布:c语言判断质数 编辑:程序博客网 时间:2024/05/28 15:07

今天,在看大神的距离度量,被各种距离应用场景的神总结惊呆了,先引用一下镇镇楼:

简单说来,各种“距离”的应用场景简单概括为,
空间:欧氏距离
路径:曼哈顿距离
国际象棋国王:切比雪夫距离
以上三种的统一形式:闵可夫斯基距离
加权:标准化欧氏距离
排除量纲和依存:马氏距离
向量差距:夹角余弦
编码差别:汉明距离
集合近似度:杰卡德类似系数与距离
相关:相关系数与相关距离。

下面就挑一些比较有名的记录一下,详细的还要参考大神的原文。

欧氏距离

  • 最常见的两点或多点之间的距离度量方法
  • 点 x = (x1,…,xn) 和 y = (y1,…,yn) 之间的距离为:
    欧氏距离

曼哈顿距离

  • L1距离或者城市街区距离,两点形成的线段在固定直角坐标系两个轴产生的投影的总和。
  • 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离
    曼哈顿距离

切比雪夫距离(Chebyshev Distance)

  • Lp度量的极值,L∞度量。
  • 在平面几何中,若二点p及q的直角坐标系坐标为(x1,y1)及(x2,y2),则切比雪夫距离为:
  • 切比雪夫距离

闵可夫斯基距离(Minkowski Distance)

  • 对上述三种距离的总结。
  • 两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:
    闵式距离
    其中p是一个变参数。
    当p=1时,就是曼哈顿距离
    当p=2时,就是欧氏距离
    当p→∞时,就是切比雪夫距离
    根据变参数的不同,闵氏距离可以表示一类的距离。

标准化欧氏距离(Standardized Euclidean Distance)

  • 将各个分量都标准化到均值和方差相等,然后再求距离。
  • 样本集的标准化过程为
    标准化欧式距离
    标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差

  • 两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的标准化欧氏距离的公式:
    这里写图片描述

汉明距离(Hamming Distance)

  • 两个等长的字符串其中一个变为另一个所需要的最小替换次数

夹角余弦(Cosine)

  • 衡量两个向量之间的差异。
  • 在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:
    这里写图片描述
    夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。

杰卡德相似系数(Jaccard Similarity Coefficient)

  • 衡量两个集合相似度的方法。
  • 两个集合的交集在两个集合的并集中所占的比例。
    杰卡德
  • 杰卡德距离
    这里写图片描述

相关系数(Correlation Coefficient)和距离

  • 相关系数:衡量随机变量相关程度的方法
    这里写图片描述
  • 取值范围为[-1,1],绝对值越大越相关
  • 相关距离:
    这里写图片描述

皮尔逊积矩相关系数(Pearson product-moment Correlation Coefficient)和距离

  • 度量两个变量X和Y的相关性
  • 两个变量之间的协方差和标准差的商
  • 这里写图片描述
0 0