数据挖掘和机器学习中距离和相似度公式

来源:互联网 发布:管家婆数据导入 编辑:程序博客网 时间:2024/05/19 16:28

距离:闵可夫斯基距离公式,也叫 Lp 范数:


当p=1时,变为曼哈顿距离公式,也即 L1范数:


当p=2时,变为欧式距离公式,也即 L2范数:


衡量空间中点的绝对距离,对绝对数值敏感。


相似性:

余弦相似:



皮尔逊相关系数,即相关分析中的相关系数,对两个个体的向量基于总体标准化后计算向量夹角的余弦值,与余弦相似相比,具有平移不变性和尺度不变性,例如,在推荐系统中根据某一用户历史评分行为查找喜好相似的用户,优点是可以不受每个用户评分标准不同和观看影片数量不一样的影响,具体公式如下



Jaccard相似系数,主要用于计算符号度量或者布尔度量的对象之间的相似度,因为符号度量或者布尔度量只能看出向量各维度值是否相同,只关心个体间的各维度值是否一致这个问题:



余弦相似度和欧式距离的区别:



欧式距离衡量的是空间中A点到B点的绝对距离,对A点和B点的位置(即绝对数值)敏感,余弦相似性衡量的是A向量和B向量的夹角,对向量方向敏感。


参考:

http://blog.csdn.net/guoziqing506/article/details/51779536

http://blog.csdn.net/kevin7658/article/details/19340573

https://en.wikipedia.org/wiki/Jaccard_index

https://en.wikipedia.org/wiki/Cosine_similarity#Ochiai_coefficient

另外,这篇博客写的不错:http://dataunion.org/11710.html

原创粉丝点击