数据分析流程
来源:互联网 发布:java获取鼠标坐标 编辑:程序博客网 时间:2024/06/10 23:54
数据探索
数据质量分析
- 缺失值
- 异常值
- 不一致数据
- 重复数据及含有特有的数据符号
缺失值分析主要从造成缺失的原因和缺失数据所带来的影响
异常值分析(离群点分析)样本中的个别值,其数据明显偏离其余的观测值。
主要分析方法:
简单统计量分析,3σ 原则,箱型图分析
3σ 原则:如果数据符合正太分布,在3σ 原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,在正太分布的假设下,距离平均值3σ 之外的值出现的概率为P(|x−μ)>3σ)≥0.003 ,属于极个别的小概率事件
箱型图分析:箱型图提供了识别异常值的一个标准,通常被定义小于QL−1.5IQR 或者大于QU+1.5IQR 的值。QL,QU,IQR 分别下四分位数,上四分位数,四分位数间距。
数据特征分析
定量数据的分布分析
- 极差
- 频率分布表
定性数据的分布分析
- 饼图和条形图
- 对比分析
变异系数主要用来比较两个或者多个具体不同单位或者不同波动幅度的数据集的离中趋势CV=sx¯
Pearson线性相关系数要求连续标量的取值要符合正太分布。不符合正太分布的变量、分类或者等级标量之间的关联性可采用Spearman秩相关系数,其计算公式如下:
rs=1−6∑i=1n(Ri−Qi)2n(n2−1)
对两个变量成对的取值分别按照从小到大顺序编秩,Ri 代表Xi 的秩次,Qi 代表yi ,Ri−Qi 为秩次之差。
判定系数是相关系数的平方 取值范围0≤r2≤1 ,r2 越接近1相关性就越强
数据预处理
数据清洗
缺失值得处理(删除记录,数据插补,不处理)
异常值得处理
数据集成
数据集成是将多个数据源合并存在一个一直的数据存储中的过程。
实体识别
(1)同名异义
(2)异名同义
(3)单位不统一
冗余属性识别
(1) 同一属性多次出现
(2) 同一属性命名不一致导致的重复
### 数据变换
简单函数变换常用来将不具有正太分布的数据变换成具有正太分布的数据。
规范化
连续属性离散化方法(等频,等宽,基于聚类分析的方法)
### 数据规约
属性规约
1 0
- 大数据分析流程
- 数据分析流程
- 移动数据 流程分析
- 数据分析项目流程
- 数据分析流程
- 1. 数据分析流程
- SPSS数据分析流程
- android Camera 数据流程分析
- 【完整的数据分析流程】
- android Camera 数据流程分析
- android Camera 数据流程分析
- 数据处理之数据流程分析
- 【完整的数据分析流程】
- 按流程进行数据分析
- 【数据可视化】可视分析流程
- 数据分析的基本流程
- android Camera 数据流程分析
- SpringMVC数据绑定流程分析
- Java JDBC增删改查的实用demo(包括判空和异常处理)
- fir.im Weekly - 给 Mac 应用开发者的教程
- 安卓应用开发——欢迎页
- Java反射
- java 中断机制
- 数据分析流程
- ios检查版本更新
- Android系统信息和Apk应用信息获取
- Java中的回车换行符/n /r /t
- 【转+修改】Secedit:命令行下操作组策略
- 应用获取唯一标识
- Android构建项目的完整流程(使用开源框架)
- oracle表空间使用率统计查询
- json应用(1)