统计描述与SAS过程

来源:互联网 发布:mac os x 启动盘 编辑:程序博客网 时间:2024/05/22 19:12

1、统计报表

TABULATE过程制表不是列出观测值,而是计算观测的分类统计量,绘制统计量的表格。对于数据汇总比较有用.
PROC TABULATE DATA=数据集名;
   CLASS 分类变量;
   VAR 分析变量;
   TABLE 页维说明,行维说明,列维说明/统计量选项;
RUN;
统计名包括:N,NMISS,MEAN,STD,MIN,MAX,RANGE,SUM,USS,CSS,STDERR,CV,T(检验均值为0的t统计量),PRT(t统计量的p值),VAR,SUMWGT(权数变量的和),PCTN(某类观测占总观测个数的百分比),PCTSUM(某类观测的总和占全部总和的百分比)。

2、图形描述 SAS/GRAPH模块

绘制散点图、折线图及曲线图、直方图、扇面图、三维曲面图、等高线图、地图等。
GPLOT过程,绘制散点图、折线图及曲线图
data t;                                                                                                                                 input year x;                                                                                                                           x1=log(x);                                                                                                                              cards;                                                                                                                                  1975 1.45                                                                                                                               1980 0.82                                                                                                                               1985 0.23                                                                                                                               1990 0.14                                                                                                                               ;                                                                                                                                       symbol c=gold i=join;                                                                                                                   proc gplot;                                                                                                                             plot x*year x1*year;                                                                                                                    symbol c=red;                                                                                                                           run;

x为垂直变量 *号右端为水平变量

2.2 GCHART过程绘制条形图、饼图、柱状图

垂直条形图VBAR水平条形图HBAR饼图PIE语句柱状图BLOCK语句
每种图形所代表的意义可以不同,主要通过选择TYPE=统计量类型,确定图形所代表的含义。
常见的统计量类型有:FREQ(频数),PCT(百分数),VFREQ(累计频数),SUM(总和)、MEAN(平均值)
data ran1;                                                                                                                              do i=1 to 500;                                                                                                                          x1=normal(0);                                                                                                                           x2=2+normal(0);                                                                                                                         y1=x1+x2;                                                                                                                               y2=x1-x2;                                                                                                                               output;                                                                                                                                 end;                                                                                                                                    symbol;                                                                                                                                 proc gchart;                                                                                                                            vbar x1 x2 y1 y2/midpoints=-8 to 8 by 0.5 raxis=120 space=0;                                                                            run;



3、三维曲面图和等高线图
data dnorm2;    a=2;            a2=sqrt(a);     r=0.5;          det=a*(1-r*r);                                                                                                                          do x=-3 to 3 by  0.3;      do y=-3*a2 to 3*a2 by 0.3*a2;          z=1/(2*3.1415926*det)*exp(-0.5/det*(a*x*x+y*y-2*r*a2*x*y));                 output;                                                             end;     end;             keep x y z;      run;            proc g3d data=dnorm2;  plot x*y=z;  run; 


用GCONTOUR过程可以绘制曲面对应的等高线图
proc gcontour data=dnorm2; plot x*y=z;    run; 


添加标题和脚注

四、计量资料的统计量描述

MEANS过程、UNIVARIATE过程用来计算简单的数据汇总信息,分别计算对区间变量计算均值、标准差等数字特征。

1、MEANS过程

PROC MEANS[options][statistics-keywords]
    VAR variables;
    CLASS variables;
    BY variables;
   OUTPUT[OUT=SAS-data-set][output-statistics];
options可使用
①DATA=SAS dataset
②ALPHA=value 设置概率可信区间的置信水平,0~1之间取值。
[statistics-keywords],在MEANS过程中指出要统计哪些量,可选如下:
N MEAN    STD    MIN   MAX SUM   CV   STDERR  T PRT  SKEWNESS  KURTOSIS  CLM   LCLM  UCLM

2、UNIVARIATE过程

UNIVARIATE过程除可以完成类似MEANS过程的基本统计量的计算外,还可以计算以下统计量:
  1. 描述变量极端值的情况
  2. 计算分位数,如中位数
  3. 生成若干个描述变量的分布图
  4. 生成频率表
  5. 对数据进行正态性检验
  6. 对数据进行配对t检验和配对秩检验
PROC UNIVARIATE [options];
  VAR variables;
 BY variables;
 OUTPUT[out=SAS-data-set][output-statistics];
原创粉丝点击