距离与相关性

来源:互联网 发布:sql删除完全重复数据 编辑:程序博客网 时间:2024/05/17 23:53

距离度量

(1)闵可夫斯基距离

d12=(k=1n(x1kx2k)p)1p

(2)欧氏距离

d12=k=1n(x1kx2k)2

(3)曼哈顿距离

d12=k=1n|x1kx2k|

(4)切比雪夫距离

二维平面点A(x1,y1)B(x2,y2)之间的切比雪夫距离为:

d12=max(|x1x2|,|y1y2|)

两个n维向量A(x11,x12,...,x1n)B(x21,x22,...,x2n)之间的切比雪夫距离距离为:
d12=maxi(|x1ix2i|)

这个公式的另一种等价形式为:
d12=limk(in|x1ix2i|k)1k

(5)夹角余弦(Cosine)

几何中夹角余弦用来衡量两个向量方向的差异,机器学习中借用这一概念衡量样本向量之间的差异。

在二维空间中向量A(x1,x2)与向量B(x2,y2)夹角余弦公式为:

cos(θ)=x1x2+y1y2x21+y21x22+y22

两个n维样本点A(x11,x12,...,x1n)与点B(x21,x22,...,x2n)之间的夹角余弦为:
cos(θ)=nk=1x1kx2knk=1s21knk=1x22k

夹角余弦的取值范围为[-1,1]

(6)汉明距离

两个等长字符串之间的汉明距离定义为将其中一个变为另外一个所需要的最小替换次数。例如“1111”与“1001”之间的汉明距离为2。

(7)杰卡德相似系数

杰卡德相似系数

两个集合A和B的交集在A和B的并集中所占的比例,称之为两个集合的杰卡德相似系数:

J(A,B)=|AB||AB|

杰卡德相似系数用来衡量两个集合的相似度

杰卡德距离

与杰卡德相似系数相反的是杰卡德距离:

Jδ(A,B)=1J(A,B)=|AB||AB||AB|

当两个集合的取值为离散时,可将其用在衡量样本的相似度上

相关性

(1)相关系数与相关距离

相关系数的定义

ρXY=Cov(X,Y)D(X)D(Y)=E((XEX)(YEY))D(X)D(Y)

相关系数是衡量两个特征列之间相关程度的一种方法,取值范围[-1,1]。
相关系数的绝对值越大,表明特征列X和Y的相关程度越高。
当取值为1时表明正线性相关,-1时表明负线性相关。

相关距离的定义

DXY=1ρXY

(2)马氏距离

定义

有M个样本向量X1Xm,协方差矩阵记为S,均值向量记为μ,则样本向量Xμ的马氏距离为:

D(X)=(Xμ)TS1(Xμ)

而其中向量XiYj之间的马氏距离定义为:
D(Xi,Yj)=(XiYj)TS1(XiYj)

若协方差矩阵是单位矩阵(各个样本向量之间独立分布),则公式为:
D(Xi,Yj)=(XiYj)T(XiYj)

也就成了欧氏距离了。
若协方差矩阵是对角矩阵,公式变成了标准化的欧氏距离

马氏距离优点:量纲无关,排除了变量之间的相关性的干扰

数据归一化

归一化有两种形式:
1. 将数据变为[0,1]之间的小数
2. 将有量纲表达式变为无量纲表达式

归一化在[0,1]之间是统计的概率分布,归一化到[-1,1]之间是统计的坐标分布

原创粉丝点击