[草稿] 相似度 相异度 (数据挖掘)

来源:互联网 发布:日本 科技 企业 知乎 编辑:程序博客网 时间:2024/05/03 02:45

属性类型

标称的    好 坏      员工编号

序数的    1 2 3 4 5 6 ...

区间或比率的     意味着数据时连续的   d=|x-y|       s= -d  或  s=1/(1+d)  或  s=e^-d  s= 1-(归一化的d)

 

闵可夫斯基距离   p=1  p=2  p=oo

 

非度量相异度:

集合差

A={1,2,3,4}  B={2,3,4}

A-B={1}   B-A=空集   可定义相异度为d(A,B)= size(A-B)+size(B-A)

时间

d(t1,t2)=   if  t1<t2    t2-t1

                if  t1>=t2  24+(t2-t1)

 

二元属性相似性度量

SMC=F00 F11

Jarccard=F11

 

对于向量   →  余弦相似度  cos(x,y)

 

 

原创粉丝点击