机器学习中的距离
来源:互联网 发布:淘宝优惠券浏览器插件 编辑:程序博客网 时间:2024/05/28 06:05
机器学习中,对于样本之间相似度量方法有很多,通常方法是采用计算样本之间的“距离”,不同的“距离”有不同的计算方法和含义
欧式距离euclidean
欧式距离最常用也最好理解,用于描述多维空间内的点和点之间几何距离
曼哈顿距离Manhattan
类似在曼哈顿街区中求解距离,欧式距离是直线距离,曼哈顿距离是折线距离。
切比雪夫距离Chebyshev
用于在多维空间中,将对象从某个位置移动到另外一个对象所消耗的最小距离
闵可夫斯基Minkowski
皮尔森相似度Pearson
描述不同样本偏离拟合中心线程度(TBD)
标准欧式距离Standard euclidean
这是为了解决上面的距离计算方式的缺点,举例说,样本为二维空间,第一维分布范围为(0,1),第二维分布为(0,100), 那么计算的结果中主要是第二维的差值。
所以,还需要考虑样本的分布情况。一般使用高斯分布(
改进的欧式距离
马氏距离Mahalanobis
其中S是X样本空间的协方差矩阵,用于标准化样本
余弦夹角Cosine
上面计算的距离只能算是标量距离,没有考虑方向信息,若是样本是向量则不适合。例如,考虑2个裁判对于4个歌手的评分分别是(10,8,9,7)和(9,7.2,8.1,6.3)。虽然对于同样的歌手打分不一样,但是总体来说4个歌手的趋势是一样的。只不过一个裁判打分要求低,一个打分要求高,2个裁判对于4个歌手的认知是一样的。
分子是两个向量的点积
改进余弦夹角
TBD
汉明距离Hamming
两个等长字符串S1和S2的距离定义为,将一个字符串变换为另一个字符串需要替换的字符。例如字符串”1111”变换为”1101”时需要替换1个字符,汉明距离为0。一般应用在信息编码中。
杰卡德相似系数Jeccard similarity
定义为不同元素占所有元素的比例
相关系数(correlation coefficient)和相关距离(correlation distance)
相关系数范围[-1,1],越大越相关。1为正线性相关,-1为负线性相关
连接距离
上面考虑的都是点与点之间的距离,有时需要计算几点和几点之间(或者子样本集之间)的距离,称为连接距离。
极大距离
极小距离
平均距离
中心距离
能量距离
TBD
信息熵Information entropy
信息熵只能算作样本分类信息的度量,不过当对样本进行处理后,分类信息就会发生变化。因此,可用于度量处理之前和处理之后的准则
0 0
- 机器学习中的距离
- 机器学习中的各种距离
- 机器学习中的各种距离
- 机器学习中的各种距离
- 机器学习中的距离计算
- 机器学习中的各种距离
- 机器学习中的各种距离
- 机器学习中的常用距离
- 机器学习中的各种距离
- 机器学习中的各种距离
- 机器学习中的各种相似性、距离度量
- 机器学习中的范数与距离
- 机器学习中的各种距离测量公式
- 机器学习中的各种距离计算公式
- 机器学习中的各种距离总结
- 【机器学习】机器学习中的各种相似性、距离度量
- 机器学习笔记——机器学习中的距离
- 机器学习&&Hausdorff距离
- iOS调用系统照相机
- 解读viewport
- java播放声音类和一个简单示例
- 数据库闭包和候选码求解方法
- UITextField小结
- 机器学习中的距离
- Git与TortoiseGit基本操作
- html5 弹出遮罩层
- log4qt使用示例
- [Leetcode] Ugly Number II
- mesa解析3
- CentOS系统下docker的安装配置及使用详解
- Android 图片加载 —— ImageLoader
- wpf label多行显示