数据分析与挖掘学习(一)
来源:互联网 发布:竹笛模拟软件 编辑:程序博客网 时间:2024/05/19 14:52
数据分析与挖掘过程
一. 定义挖掘目标
一般的数据挖掘任务包括:
- 分类与预测
- 聚类分析
- 关联规则
- 时序模式
- 偏差检验
- 智能推荐
二. 数据取样
抽取一个与挖掘目标相关的样本子集,标准是
- 相关性
- 可靠性
- 有效性
而不是选用全部数据做样本,数据样本选取得好,还可以使我们要寻找的规律更加凸显出来
衡量取样数据的质量标准如下:
- 资料完整无缺,各类指标项齐全
- 数据准确无误,反映的都是正常(非异常)状态下的水平
对获取的数据,可再从中进行抽样,方式可如下:
- 随机抽样
- 等距抽样
- 分层抽样
- 顺序抽样
- 分类抽样
三. 数据探索
拿到样本数据集之后,开始进行数据探索,下面是一些探索的内容:
- 项目中有没有什么明显的规律和趋势
- 属性之间有什么相关性
- 它们可以分成怎样一些类别
- …
具体可能还包括下面的内容:
- 数据质量分析
- 缺失值分析
- 异常值分析
- 一致性分析
- 数据特征分析
- 分布分析
- 对比分析
- 统计量分析
- 周期性分析
- 贡献度分析
- 相关性分析
四. 数据预处理
五. 挖掘建模
六. 模型评价
0 0
- 数据分析与挖掘学习(一)
- 《Python数据分析与挖掘实战》笔记(一):数据挖掘基础
- 数据挖掘学习(一)
- python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part1
- python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part2
- 加州理工机器学习与数据挖掘(一)
- 数据分析与挖掘
- 数据挖掘与数据分析
- 数据分析与数据挖掘
- 数据挖掘与数据分析
- 数据分析与数据挖掘
- 数据挖掘与R语言,数据分析,机器学习
- 数据挖掘学习笔记(一)
- 数据挖掘学习笔记(一)引论
- 数据挖掘学习笔记(一)
- 《数据挖掘导论》学习笔记(一)
- R语言与数据挖掘(一)
- 数据仓库与数据挖掘(一)
- Android参考书籍
- elasticsearch 在查询中文时,无返回结果
- CSAPP3e - x86-64 assembly code analysis - Attack Lab: Level II
- div+css
- 解析Ceph和9000分布式存储
- 数据分析与挖掘学习(一)
- UML中关联,聚合,组合的区别(读书笔记)
- Spark性能优化:shuffle调优
- 飛飛(六十三)讲内容填充完整
- 树状数组+异或运算
- leetcode 22. Generate Parentheses
- printf输出格式:printf("%*.*s/n",m,n,ch)
- ViPR和DJ领跑软件定义存储
- 异或运算+水题