数据基本参数

来源:互联网 发布:淘宝手机客户端装修 编辑:程序博客网 时间:2024/05/16 07:28

 

数据来源:学生成绩排名预测

>setwd("C:/Users/fss/Desktop")

> data <-read.csv("train.csv", header = T)

> head(data,2)

  学期 学号    书号 图书馆门禁_时间   地点消费_时间金额 日期 排名

1   1   55 1297346           92854 图书馆    104218 0.64  916  23

2   1   55 1297346           92854   食堂    110010 4.20  916  23

 

平均数:

> mean(X)

[1] 2.488715

> n <- length(X)

> n

[1] 12048

 

平均偏差:

是描述个体值间的变异,即观察值的离散度的指标之一。平均偏差较小,表示观察值围绕均数的波动较小;反之亦然。平均偏差计算公式是


> adev_x <- sum(abs(X-mean(X)))/n

> adev_x

[1] 2.197925

 

极差:

> jc_X <- max(X) - min(X)

> jc_X

[1] 29.99

 

方差:

> var_X <- var(X)

> var_X

[1] 9.073204

 

标准差:

> std_x <- sqrt(var_X)

> std_x

[1] 3.012176

or 

st(X)


标准误:

描述统计量的抽样误差,即样本统计量与总体参数的接近程度。标准误小,表示抽样误差小,则统计量较稳定并与参数较接近。可将统计量及其标准误同时写出,如样本均数及其标准误可写为:平均值±SE,计算公式是


> se_x <- std_x/sqrt(length(X))

> se_x

[1] 0.02744245

 

变异系数(CV) :

又称离散系数,即标准差与均数之比,用百分数表示,CV=SD /mean(x)  ,反映计量资料

的变异程度,变异系数无单位。

> cv_x <- std_x/mean(X)

> cv_x

[1] 1.210334

0 0
原创粉丝点击