基本统计分析 (R语言初步)

来源：互联网发布：dwg免费加密软件编辑：程序博客网时间：2024/05/01 03:18

vars=c("mpg","hp","wt")> head(mtcars[vars])                   mpg  hp    wtMazda RX4         21.0 110 2.620Mazda RX4 Wag     21.0 110 2.875Datsun 710        22.8  93 2.320Hornet 4 Drive    21.4 110 3.215Hornet Sportabout 18.7 175 3.440Valiant           18.1 105 3.460> summary(mtcars[vars])      mpg              hp              wt        Min.   :10.40   Min.   : 52.0   Min.   :1.513   1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581   Median :19.20   Median :123.0   Median :3.325   Mean   :20.09   Mean   :146.7   Mean   :3.217   3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610   Max.   :33.90   Max.   :335.0   Max.   :5.424

summary()获取描述性统计量。提供了最大值，最小值。四分位数和数值型变量的均值，以及因子向量和逻辑型向量的频数统计。

sapply(x,FUN,options) X是你的数据框或者矩阵。FUN是函数，如果指定了options将传递给FUN。

普及知识：

偏度和峰度

峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较，峰度为0表示该总体数据分布与正态分布的陡缓程度相同；峰度大于0表示该总体数据分布与正态分布相比较为陡峭，为尖顶峰；峰度小于0表示该总体数据分布与正态分布相比较为平坦，为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

偏度与峰度类似，它也是描述数据分布形态的统计量，其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较，偏度为0表示其数据分布形态与正态分布的偏斜程度相同；偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏，即有一条长尾巴拖在右边，数据右端有较多的极端值；偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏，即有一条长尾拖在左边，数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

峰度（Kurtosis）是描述某变量所有取值分布形态陡缓程度的统计量，它是和正态分布相比较的。
Kurtosis=0 与正态分布的陡缓程度相同。
Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
Kurtosis<0 比正态分布的高峰来得平台——平顶峰

偏度：

偏度（Skewness）是描述某变量取值分布对称性的统计量，可表示为变量的三阶中心距除以标准差三次方。

Skewness=0 分布形态与正态分布偏度相同
Skewness>0 正偏差数值较大，为正偏或右偏。长尾巴拖在右边。
Skewness<0 负偏差数值较大，为负偏或左偏。长尾巴拖在左边。

（一）偏度　偏度是指次数分布非对称的偏态方向程度。为了精确测定次数分布的偏斜状况，统计上采用偏斜度指标。计算偏斜度有不同的方法，现介绍其中比较简单的一种方法。
　　由前述介绍可知，在对称分布条件下，=Me=M0；在偏态分布条件下，三者存在数量（位置）差异。其中，Me居于中间，与M0分居两边，因此，偏态可用与M0的绝对差额（距离）来表示，即

　　与M0的绝对差额越大，表明偏斜程度越大；与M0的绝对差额越小，则表明偏斜程度越小。当>M0，说明偏斜的方向为右（正）偏；当<M0，则说明偏斜的方向为左（负）偏。
　　由于偏态是以绝对数表示的，具有原数列的计量单位，因此不能直接比较不同数列的偏态程度。为了使不同数列的偏态值可比，可计算偏态的相对值，即偏斜度（α）又称为偏态系数，就是将偏态的绝对数用其标准差除之。公式为：

　　　　　　　　　　　　（4-55）

　　偏斜度是以标准差为单位的算术平均数与众数的离差，故其取值范围一般在0与±3之间。α为0表示对称分布，α为+3与-3分别表示极右偏态和极左偏态。

　　（二）峰度峰度是指次数分布曲线顶峰的尖平程度，是次数分布的又一重要特征。统计上，常以正态分布曲线为标准，来观察比较某一次数分布曲线的顶端正党风尖顶或平顶以及尖平程度的大小。
　　根据变量值的集中与分散程度，峰度一般可表现为三种形态：尖顶峰度、平顶峰度和标准峰度。当变量值的次数在众数周围分布比较集中，使次数分布曲线比正态分布曲线顶峰更为隆起尖峭，称为尖顶峰度；当变量值的次数在众数周围分布较为分散，使次数分布曲线较正态分布曲线更为平缓，称为平顶峰度。可见，尖顶峰度或平顶峰度都是相对正态分布曲线的标准峰度而言的。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　峰度的测定，一般是采用统计动差方法，即以四阶中心动差V4为测定依据，将V4除以其标准差的四次方σ4，以消除单位量纲的影响，便于不同次数分布曲线的峰度比较，从而得到以无名数表示的相对数，即为峰度的测定值（β）。计算公式为：

　　　　　　　　　　　　 132 （4-56）

　　由统计计算分析可知，当次数分布为正态分布曲线时，β=3，以此为标准就可比较分析各种次数分布曲线的峰度。当β>3时，表示分布曲线呈尖顶峰度，为尖顶曲线，说明变量值的次数较为密集地分布在众数的周围，β值越大于3，分布曲线的顶端越尖峭。当β<3时，表示分布曲线呈平顶峰度，为平顶曲线，说明变量值的次数分布比较均匀地分散在众数的两侧，β值越小于3，则分布曲线的顶峰就越平缓。一般当β值接近于1.8时，分布曲线呈水平矩形分布形态，说明各组变量值的次数相同。当β值小于1.8时，次数分布曲线趋向“U”型分布。实际统计分析中，通常将偏度和峰度结合起来运用，以判断变量分布是否接近于正态分布。

检验数据是否符合正态分布：

通过计算偏度和峰度及其标准误差然后做U检验，例如信度为0.05时，两个检验同时得出U<U0.05=1.96，即p>0.05的结论时，才可认为该组资料服从正态分布。

U检验：

u—检验法是在大样本（n＞30）的情况下，检验随机变量的数学期望是否等于某一已知值的一种假设检验方法。设X1，X2，……，Xn是正态随机变量X的一个样本，总体方差为σ2；假设X的数学期望MX等于某个已知值m0，根据统计理论，当假设成立时，统计量下，

u=(MX - m0) / (σ * SQRT(n))

由预先给定的信度α，查正态分布表，得uα。若计算的│u│＜uα，则接受假设，即X的数学期望MX与m0无显著差异；若│u│≥uα，则拒绝假设，认为X的数学期望与m0有显著差异。两个正态随机变量在方差已知的条件下，u—检验法可用来检验它们的数学期望是否有显著差异。