matlab数据挖掘学习篇-----数据质量

来源:互联网 发布:usb打印机端口 win7 编辑:程序博客网 时间:2024/06/05 15:59

数据质量分析:

1.缺失值

2.异常值

3.不一致的值

4.重复数据及含有特殊符号的数据


1.1缺失值分析

使用统计分析,可以得到缺失值属性个数以及每个属性的未缺失值、缺失数与缺失率等。

处理方法:删除存在缺失值的记录、对可能值进行插补和不处理。


2.1异常值处理

(1)3原则

若数据服从正态分布,在3原则下,异常值被定义:一组测定值中与平均值的偏差超过三倍标准差的值。在正态分布的假设下,距离平均值3之外的值出现的概率为,属于极个别小概率事件。


(2)箱型图分析

异常值定义:小于或大于的值。

:下四分位数

:上四分位数

:四分位数间距,上下四分位数之差,其间包含全部观测值的一半


%% 异常值检测% 箱型图上下界sales=xlsread('jiang.xlsx');q=prctile(sales,[25,75]);         %% 计算上四分位与下四分位p_25=q(1,1);p_75=q(1,2);upper=p_75+1.5*(p_75-p_25);lower=p_25-1.5*(p_75-p_25);upper_indexes=sales(sales>upper);lower_indexes=sales(sales<lower);indexes=[upper_indexes;lower_indexes];indexes=sort(indexes);% 箱型图figurehold on;boxplot(sales,'whisker',1.5,'outliersize',6);rows=size(indexes,1);flag=0;for i=1:rows    if flag==0        text(1+0.01,indexes(i,1),num2str(indexes(i,1)));        flag=1;    else        text(1-0.017*length(num2sre(indexes(i,1))),indexes(i,1),num2str(indexes(i,1)));        flag=0;    endendhold off;disp('异常值检测完成');              






        
  


好文要顶 关注我 收藏该文  
SevnChen
关注 - 0
粉丝 - 2
+加关注
0
0
» 下一篇:【线性回归】线性回归模型中几个参数的解释
posted @ 2015-12-06 22:36 SevnChen 阅读(2859) 评论(0) 编辑 收藏

原创粉丝点击