matlab数据挖掘学习篇-----数据质量
来源:互联网 发布:usb打印机端口 win7 编辑:程序博客网 时间:2024/06/05 15:59
数据质量分析:
1.缺失值
2.异常值
3.不一致的值
4.重复数据及含有特殊符号的数据
1.1缺失值分析
使用统计分析,可以得到缺失值属性个数以及每个属性的未缺失值、缺失数与缺失率等。
处理方法:删除存在缺失值的记录、对可能值进行插补和不处理。
2.1异常值处理
(1)3原则
若数据服从正态分布,在3原则下,异常值被定义:一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3之外的值出现的概率为,属于极个别小概率事件。
(2)箱型图分析
异常值定义:小于或大于的值。
:下四分位数
:上四分位数
:四分位数间距,上下四分位数之差,其间包含全部观测值的一半
%% 异常值检测% 箱型图上下界sales=xlsread('jiang.xlsx');q=prctile(sales,[25,75]); %% 计算上四分位与下四分位p_25=q(1,1);p_75=q(1,2);upper=p_75+1.5*(p_75-p_25);lower=p_25-1.5*(p_75-p_25);upper_indexes=sales(sales>upper);lower_indexes=sales(sales<lower);indexes=[upper_indexes;lower_indexes];indexes=sort(indexes);% 箱型图figurehold on;boxplot(sales,'whisker',1.5,'outliersize',6);rows=size(indexes,1);flag=0;for i=1:rows if flag==0 text(1+0.01,indexes(i,1),num2str(indexes(i,1))); flag=1; else text(1-0.017*length(num2sre(indexes(i,1))),indexes(i,1),num2str(indexes(i,1))); flag=0; endendhold off;disp('异常值检测完成');
好文要顶 关注我 收藏该文
0
0
» 下一篇:【线性回归】线性回归模型中几个参数的解释
posted @ 2015-12-06 22:36 SevnChen 阅读(2859) 评论(0) 编辑 收藏
阅读全文
0 0
- matlab数据挖掘学习篇-----数据质量
- matlab数据挖掘学习篇
- matlab数据挖掘学习篇----数据特征分析
- 数据挖掘学习------------------1-数据准备-2-数据质量分析
- MATLAB数据分析与挖掘实战-数据探索-3.1 数据质量分析
- 【数据挖掘导论】——数据质量
- 数据挖掘学习篇一
- 数据挖掘学习笔记-数据篇
- 数据挖掘学习-准备篇-数据集
- 数据挖掘学习-准备篇-数据集
- 数据挖掘学习篇——数据挖掘的概念
- Matlab机器学习和数据挖掘工具箱 Spider
- 开始学习数据挖掘
- 数据挖掘基本知识学习
- 数据挖掘学习网站
- 学习数据挖掘
- 数据挖掘学习顺序
- 数据挖掘学习
- ES6(十: import 模块加载)
- Scala学习笔记
- POJ 3615 Cow Hurdles
- Django REST framework-教程02-Requests and Responses原创翻译
- 自定义控件的使用
- matlab数据挖掘学习篇-----数据质量
- BZOJ 4753: [Jsoi2016]最佳团体
- 运行有惊喜~嘻嘻
- huaweiMM部门面试总结
- linux系统启动2——MBR
- .jar与sources.jar区别
- 数控衰减器衰减范围异常的解决案例
- 常见文件运算
- STL中的deque及源码实现 std::deque