数据挖掘_聚类/维数灾难

来源：互联网发布：自己拍电影知乎编辑：程序博客网时间：2024/06/05 17:11

1.数据挖掘的主要任务：

【1】描述数据，发现特点、模式、规律 eg聚类

【2】预测

2大数据：不仅仅是指大量的数据、也指高维的数据。

3.给了一个网站：www.mmds.org 上面有书的pdf和ppt，具体课程怎么看还未探索

4.聚类

【1】聚类的目标：就是区分相似与不相似，不相似的分开，相似的组队，这样一个过程。启：遇到相似，可想到聚类的方法

【2】作用：更好的理解数据集的特点

【3】那么如何衡量相似呢？用距离：欧式距离、余弦距离、编辑距离等

【4】聚类本身就是自然分为几类的数据打乱后让其恢复的算法，所以可以利用这一点，判断所聚的类是否合适

一、簇的密度二、平均直径（每个簇的直径平均值）

5.维数灾难

【1】|AB| = √[(x₁-x₂)²+(y₁-y₂)²]，如果维数足够多，根号内项数就会足够多，整体都趋近与无穷。不同点之间距离都往无穷跑，无法衡量

【2】从余弦距离入手，两向量余弦值=（两向量的内积）/各自的模。

同样假定抽取随机向量，分子：两向量的内积是随机值之和趋向于0。分母：各自的模趋向无穷。整体：趋向于0即余弦值趋向于0

角度趋向90度

6.层次聚类

【1】取距离最小的两点作为一类理解：距离越小越相似

【2】如何代表一个簇间的距离，eg、簇的质心间距离...数据挖掘书 p195页

【】像层次聚类这种所有点合并过程中形成树的过程，很有实际意义。eg：衡量基因的相似度--树型反应物种的进化过程

阅读全文

0 0