数据挖掘导论--数据

来源：互联网发布：新房装修淘宝推荐编辑：程序博客网时间：2024/05/16 08:45

数据

写在前面的话：学习过的知识不常用就会生疏，概念的东西特别容易遗忘，还是老老实实过一遍书，并做好笔记，以待日后快速查阅。

属性的类型
标称（nominal）：定性属性。仅仅是不同的名字，如性别，邮政编码，判别用＝，≠
序数（ordinal）：定性属性。能提供足够的信息确定序，成绩（优良中差），病情严重（好，较好，一般，差），判别：< ，>
区间（interval）：定量属性。值之间的查是有意义的，如温度
抽样方法
简单随机抽样：有放回抽样，无放回抽样
分层抽样：解决简单随机抽样无法保证解决稀缺种类的样本数量的情况。
（1）：尽管每组大小不同，但是抽取的对象个数相同。
（2）：每一组抽取的样本个数与该组样本容量成正比。
数据标准化（normalization）
数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。
(1)z-score:
$x = x - x ¯ s$
s:标准差
经过标准化的数据，其值发生改变，但其所处的相对位置并没有改变。比如距离均值两倍标准差的点，在标准化之后，其距离均值仍为两倍标准差
可将均值替换为中位数来降低x的异常值对x均值的影响,它具有均值为0，标准差1.例如人的年纪和收入这两个属性进行比较
(2)0-1标准化：
$x - x m i n x m a x - x m i n$
数据的相异性（距离）
距离公式（闵可夫斯基）：
$d = (\sum i = 0 n | x k - y k | r) 1 r$
r = 1:曼哈顿距离（L1范数）
r= 2：欧氏距离（L2范数）
数据的相似性
（1）Jaccard系数：
仅能处理二元属性的对象：
$J = A ⋂ B A ⋃ B = f 11 f 01 + f 10 + f 01$
f11x=1且y=1
f01x=0且y=1
f10x=1且y=0
f00x=0且y=0

例如
x=(1,0,0,0,0,0,0,0,0,0)
y=(0,0,0,0,0,0,1,0,0,1)
f11=0,f01=2,f10=1,f00=0
J=0
（2）余弦相似性：
能够处理非二元向量

（3）广义Jaccard系数：（Tanimoto系数）

E J (x ， y) = x \cdot y | | x | | 2 + | | y | | 2 - x \cdot y

(4)Pearson’s correlation皮尔森相关系数：

c o r r (x, y) = S x y S x S y = c o v ( x , y ) D x - - - \sqrt D y - - - \sqrt

Sxy=1n−1∑nk=1(xk−x¯)(yk−y¯)=E(XY)−E(X)E(Y)—协方差
Sx=1n−1∑nk=1(xk−x¯)2−−−−−−−−−−−−−−−√–标准差
D(x)=∑ni=1(xi−x¯)(xi−x¯)n−1

(5)马氏距离Mahalanobis
处理除值域不同外，当某些属性之间还相关时，如何计算距离，马氏距离在处理两个属性相关之间的距离时较欧氏距离更加考虑了相关性：

m a h a l a n o b i s (x, y) = (x - y) \sum - 1 (x - y) T

∑−1表示是协方差矩阵的逆

(6)加权的闵可夫斯基距离：

d = (\sum i = 0 n w k | x k - y k | r) 1 r

以上。

0 0