《Data Mining》学习——度量数据的相似性和相异性

来源：互联网发布：x-japan 知乎编辑：程序博客网时间：2024/05/19 13:43

1.标称属性的邻近性度量

设一个标称属性的状态数目是M。这些状态可以用字母，或者一组数字来表示，并且这些数字只代表数据标号，并没有特定的顺序。
如何计算标称属性所刻画的对象之间额相异性？
两个对象i和j之间的相异性可以跟据不匹配率来计算：

d (i, j) = p - m p

其中，m是匹配数目（i和j取值相同的属性数目），p是指总的属性数目。可得相似性计算如下：

s i m (i, j) = 1 - d (i, j) = m p

2.二元属性的邻近性度量

对于对称的二元属性，每个状态都要一样重要，对于二元属性的相异性称为对称的二元相异性。对于对象i，j用二元属性刻画，则i和j的相似性为：

d (i, j) = r + s q + r + s + t

对于字母所代表的的意义，我们得出一个两行两列的列行表：

状态 1 0 sum 1 q r q+r 0 s t s+t sum q+s r+t p

其中q是对象i，j都取1的属性数，r是在对象i中为1，在对象j中为0的属性数，依次类推…
由互补原理可以得出对称的二元相似性为：

s i m (i, j) = 1 - d (i, j)

对于非对称的二元相似性可在图上表格中加入权志计算，也就是出现相同的数目乘以他的权计算。

3.数值属性的相异性：闵可夫斯基距离

闵可夫斯基距离（Minkowski distance）是欧几里得距离和曼哈顿距离的推广，定义如下：

d (i, j) = | x i 1 - x j 1 | h + | x i 2 - x j 2 | h + . . . + | x i h - x j h | h - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt h

其中，h是实数，h

≥1（这种距离也被称为Lp范数），其中p就是指h。当p=1时，它表示曼哈顿距离（L1范数）;当p=2时表示欧几里得距离（L2范数）。
特别的当h趋近无穷时(h->

∞)，称为上确界距离（Lmax范数，L∞范数或者切比雪夫距离）：

d (i, j) = lim n \to \infty (\sum f = 1 p | x i f - x j f | h) 1 h = m a x | x i f - x j f |

L∞范数又称一致范数。

4.序数属性的邻近距离

序数属性的值之间具有有意义的排位或者顺序。序数属性也可以通过把数值属性的值域划分为有限各类别，对数值属性离散化得到。
如何处理有序数属性？在计算数值相异性时，序数属性的处理与数值相似。假如f是用于描述n个对象的一组序数属性之一。关于f的相异性计算涉及如下步骤：

第i个对象的f值为xif,属性f有Mf个有序的状态，表示排位1，…，Mf。对应的排位rif∈{1,..Mf}取代xif。
由于每个序数属性都可以有不同的状态数，所以通常要映射的[0.0，1.0]上，以便每个属性都有相同的权重。
$z i f = r i f - 1 M f - 1$
相异性则与数值属性算法相似。

5.混合类型属性的相异性

复杂公式不写了！
理解出来大体就是：

求得所有属性的相异性之后，对所有对象的相异性求平均。

6.余弦相似性

余弦相似性是一种度量，它可以用来比较文档，或者针对给定的查询词向量对文档进行排序。
令x，y为比较向量：

s i m (x, y) = x . y | | x | | * | | y | |

||x||代表了欧氏距离，x.y为向量点乘。
当属性是二元属性时，余弦相似性的一个简单变种：

s i m (x, y) = x . y x . x + y . y - x . y

x.y是x和y共同具有的属性数，而|x| |y|是x具有的属性数与y具有的属性数的几何平均。于是，sim（x，y）是公共属性相对拥有的已中度量。
这样得出x和y所共有属性个数与x或y所具有的的属性个数之间的比率，这个函数被称为Tanimoto系数或者距离。

7.总结

0 0