机器学习相似度度量
来源:互联网 发布:106短信平台软件 编辑:程序博客网 时间:2024/05/02 02:00
在机器学习中,无论是分类问题、聚类问题或降维问题,经常需要度量不同样本之间的相似性。不过如何友好地表征不同样本之前的相似性?通常采用的方法就是计算样本间的“距离”。
距离计算方法有很多,对于实际遇到的问题到底采用什么样的方法来计算距离是很讲究的,因为相似性度量的好坏很多时候直接关系到原始问题的求解结果。为了加深大家对各个距离方法的理解,本文就对常用的相似性度量策略作一个总结,希望对各位后续处理机器学习问题有所帮助。
欧式距离
欧氏距离是一个通常采用的距离定义,指在
曼哈顿距离
曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所创的词汇 ,是一种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和。两个
切比雪夫距离
二个点之间的切比雪夫距离定义是其各坐标数值差绝对值的最大值。因此两个
等价于
闵氏距离
闵氏距离是以俄裔德国数学家闵可夫斯基命名的,它代表的不是一种距离,而是一组距离的定义。两个
其中
马氏距离
马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。两个
其中
夹角余弦
两个
根据余弦函数的性质可知夹角余弦取值范围为
夹角余弦距离衡量的是空间向量的夹角,更加体现在方向上的差异,而不是位置,因此其对绝对的数值距离不敏感。
相关系数/距离
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是衡量随机变量
相关系数的取值范围是[-1,1]。相关系数定量地刻画了
汉明距离
汉明距离是以理查德·卫斯里·汉明的名字命名的。两个等长字符串
杰卡德相似系数/距离
杰卡德相似系数:两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。它是衡量两个集合相似度的一种指标。
杰卡德相似度算法没有考虑向量中潜在数值的大小,而是简单的处理为0和1,不过做了这样的处理之后,杰卡德方法的计算效率肯定是比较高的,毕竟只需要做集合操作。
杰卡德距离:杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance),它用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。杰卡德距离可用如下公式表示:
参考资料
1. http://www.cnblogs.com/chaosimple/archive/2013/06/28/3160839.html 余弦距离、欧氏距离和杰卡德相似性度量的对比分析
2. http://blog.sina.com.cn/s/blog_407e5c1c0102vxyh.html 闵可夫斯基距离(MinkowskiDistance)
3. http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html 机器学习中的相似性度量
- 机器学习相似度度量
- 机器学习的相似度度量
- 机器学习中的各种相似度度量
- 机器学习中的相似度度量
- 机器学习之&&距离和相似度度量
- 机器学习中的相似度度量(1)
- 机器学习中相似度度量(2)
- 机器学习中的相似度量方法
- 机器学习和统计学中常见的距离和相似度度量
- 相似度度量 距离
- 轨迹相似度度量
- 各种距离度量(相似度度量)
- SimRank--基于结构的相似度度量方法学习笔记
- SimRank--基于结构的相似度度量方法学习笔记
- 机器学习: 性能度量
- 距离和相似度度量
- 距离和相似度度量
- 距离和相似度度量
- 自制处理器OpenMIPS移植ucos-II过程之2——OpenMISP实践版及SOPC搭建
- java基础
- 用JS制作一个信息管理平台
- 人脸特征点检测(Facial landmark detection)
- 单例和多线程
- 机器学习相似度度量
- 【YDKJS笔记】一、入门与进阶
- 线程与进程的概念和区别
- 【模板】倍增法求lca
- Git仓库SSH Key 的配置
- 数据结构 循环链表
- POJ 3600 Subimage Recognition(dfs)
- leetcode 80. Remove Duplicates from Sorted Array II
- TensorFlow在MNIST数据集上实现神经网络