数据挖掘_聚类/维数灾难

来源:互联网 发布:自己拍电影知乎 编辑:程序博客网 时间:2024/06/05 17:11

1.数据挖掘的主要任务:

【1】描述数据,发现特点、模式、规律     eg聚类

【2】预测

2大数据:不仅仅是指大量的数据、也指高维的数据。

3.给了一个网站:www.mmds.org  上面有书的pdf和ppt,具体课程怎么看还未探索

4.聚类

【1】聚类的目标:就是区分相似与不相似,不相似的分开,相似的组队,这样一个过程。     启:遇到相似,可想到聚类的方法

【2】作用:更好的理解数据集的特点

【3】那么如何衡量相似呢?用距离:欧式距离、余弦距离、编辑距离等

【4】聚类本身就是自然分为几类的数据打乱后让其恢复的算法,所以可以利用这一点,判断所聚的类是否合适

          一、簇的密度    二、平均直径(每个簇的直径平均值)

5.维数灾难

【1】|AB| = √[(x₁-x₂)²+(y₁-y₂)²],如果维数足够多,根号内项数就会足够多,整体都趋近与无穷。不同点之间距离都往无穷跑,无法衡量

【2】从余弦距离入手,两向量余弦值=(两向量的内积)/各自的模。

         同样假定抽取随机向量,分子:两向量的内积是随机值之和趋向于0。分母:各自的模趋向无穷。整体:趋向于0即余弦值趋向于0

         角度趋向90度

6.层次聚类

【1】取距离最小的两点作为一类           理解:距离越小越相似

【2】如何代表一个簇间的距离,eg、簇的质心间距离...数据挖掘书    p195页

【】像层次聚类这种所有点合并过程中形成树的过程,很有实际意义。eg:衡量基因的相似度--树型反应物种的进化过程



原创粉丝点击