距离与相关性
来源:互联网 发布:sql删除完全重复数据 编辑:程序博客网 时间:2024/05/17 23:53
(1)闵可夫斯基距离
(2)欧氏距离
(3)曼哈顿距离
(4)切比雪夫距离
二维平面点
两个n维向量
这个公式的另一种等价形式为:
(5)夹角余弦(Cosine)
几何中夹角余弦用来衡量两个向量方向的差异,机器学习中借用这一概念衡量样本向量之间的差异。
在二维空间中向量
两个n维样本点
夹角余弦的取值范围为[-1,1]
(6)汉明距离
两个等长字符串之间的汉明距离定义为将其中一个变为另外一个所需要的最小替换次数。例如“1111”与“1001”之间的汉明距离为2。
(7)杰卡德相似系数
杰卡德相似系数
两个集合A和B的交集在A和B的并集中所占的比例,称之为两个集合的杰卡德相似系数:
杰卡德相似系数用来衡量两个集合的相似度
杰卡德距离
与杰卡德相似系数相反的是杰卡德距离:
当两个集合的取值为离散时,可将其用在衡量样本的相似度上
(1)相关系数与相关距离
相关系数的定义
相关系数是衡量两个特征列之间相关程度的一种方法,取值范围[-1,1]。
相关系数的绝对值越大,表明特征列X和Y的相关程度越高。
当取值为1时表明正线性相关,-1时表明负线性相关。
相关距离的定义
(2)马氏距离
定义
有M个样本向量
而其中向量
若协方差矩阵是单位矩阵(各个样本向量之间独立分布),则公式为:
也就成了欧氏距离了。
若协方差矩阵是对角矩阵,公式变成了标准化的欧氏距离
马氏距离优点:量纲无关,排除了变量之间的相关性的干扰
归一化有两种形式:
1. 将数据变为[0,1]之间的小数
2. 将有量纲表达式变为无量纲表达式
归一化在[0,1]之间是统计的概率分布,归一化到[-1,1]之间是统计的坐标分布
阅读全文
0 0
- 距离与相关性
- 统计数据、相关性与因果关系
- 相关性与卷积
- 编译器与平台相关性
- 相关性
- 相关性
- 网站相关性与排名问题
- 向量的相似与相关性
- 系统服务与应用程序相关性的分析
- 系统服务与应用程序相关性的分析
- 恐龙灭绝与电脑的相关性[原创]
- 相关性与误差能量最小准则
- Perl的平台无关性与相关性
- 网站优化中的相关性关键词与匹配
- 相关性与误差能量最小准则
- 相关性与回归性的区别
- C与C++的编译相关性
- 算法-余弦定理与相关性比较
- Dash for mac(代码文档浏览器)破解版 V4.1.1激活版
- ZOJ 1324 Reactor Cooling——无源汇有上下界的可行流
- maven的聚合和继承
- 【给詹詹的Python学习笔记二】
- java编程,用数组计算学生的平均分
- 距离与相关性
- Win10快捷键
- 书单推荐(持续更新中)
- Spring与SpringMVC父子容器
- 第一周心得
- Python的数值和字符串
- 剑指offer--从尾到头打印链表
- Course Schedule
- 接口回调,观察者模式,消息机制3者的区别