数据挖掘_聚类/维数灾难
来源:互联网 发布:自己拍电影知乎 编辑:程序博客网 时间:2024/06/05 17:11
1.数据挖掘的主要任务:
【1】描述数据,发现特点、模式、规律 eg聚类
【2】预测
2大数据:不仅仅是指大量的数据、也指高维的数据。
3.给了一个网站:www.mmds.org 上面有书的pdf和ppt,具体课程怎么看还未探索
4.聚类
【1】聚类的目标:就是区分相似与不相似,不相似的分开,相似的组队,这样一个过程。 启:遇到相似,可想到聚类的方法
【2】作用:更好的理解数据集的特点
【3】那么如何衡量相似呢?用距离:欧式距离、余弦距离、编辑距离等
【4】聚类本身就是自然分为几类的数据打乱后让其恢复的算法,所以可以利用这一点,判断所聚的类是否合适
一、簇的密度 二、平均直径(每个簇的直径平均值)
5.维数灾难
【1】|AB| = √[(x₁-x₂)²+(y₁-y₂)²],如果维数足够多,根号内项数就会足够多,整体都趋近与无穷。不同点之间距离都往无穷跑,无法衡量
【2】从余弦距离入手,两向量余弦值=(两向量的内积)/各自的模。
同样假定抽取随机向量,分子:两向量的内积是随机值之和趋向于0。分母:各自的模趋向无穷。整体:趋向于0即余弦值趋向于0
角度趋向90度
6.层次聚类
【1】取距离最小的两点作为一类 理解:距离越小越相似
【2】如何代表一个簇间的距离,eg、簇的质心间距离...数据挖掘书 p195页
【】像层次聚类这种所有点合并过程中形成树的过程,很有实际意义。eg:衡量基因的相似度--树型反应物种的进化过程
阅读全文
0 0
- 数据挖掘_聚类/维数灾难
- 数据挖掘中的维灾难
- 数据平滑、维数灾难和数据稀疏
- 维数灾难
- 维数灾难
- 维数灾难
- 维数灾难
- 维数灾难
- 维数灾难
- 数据挖掘_数据流挖掘
- 读书笔记 -- 006_数据挖掘_聚类_概念知识
- [_数据挖掘_] 决策树
- 维数灾难(from wiji)
- 离散与维数灾难
- 离散和维数灾难
- 数据挖掘(^_^机)
- 数据挖掘_推荐系统
- [_数据挖掘_] SVM学习
- Linux 指令与文件的搜寻 —— which whereis locate updatedb find
- Java 设计模式之中介者模式
- netty-socketio即时通讯
- 搭建Docker Swarm集群实战(一)(服务发现使用consul)
- 函数指针和指针函数的区分
- 数据挖掘_聚类/维数灾难
- 石子游戏
- Synchronized和ReentrantLock重入锁
- SpringMVC 拦截器不拦截静态资源的三种处理方式
- 源码安装mariadb
- jquery常考的一些面试题
- Unity相机摇动
- win10系统如何取消任务栏处的窗口缩略图
- codeforce_868A_水_模拟