杰卡德距离
来源:互联网 发布:域名生成算法 编辑:程序博客网 时间:2024/06/06 00:55
二元属性常常用1和0代表两种取值,此类属性对象的相似度可以用杰卡德距离计算。
定义:设对象X,Y中取值同为1的属性有p个,X 取1且取0的属性有q个,X 取0且Y 取1的属性有r个,则 X,Y 的杰卡德距离为d(X,Y)=(q+r)/ (p+q+r)。
例如考察两患者X,Y的症状情况(发烧、咳嗽、白细胞升高、呕吐、流鼻涕),如果他们取值分别是(1,1,0,0,1)和(1,0,0,1,0),取值为1表示有此症状,0表示无此症状,则他们的杰卡德距离为(2+1)/(1+2+1)= 3/4,表示两者属性的相异度,则相似度为1-3/4=1/4.
杰卡德距离常用语比较两文档的相似性。预先定义文档中的所有主干词,每个词在文档中出现时将它的值置为1,否则为0,则以这些主干词作为属性的杰卡德距离可以用于衡量两文档的相异度和相似度。
(本文摘自《数据可视化基本原理与方法》科学出版社 陈为等)
0 0