hive--计算方差标准差

来源:互联网 发布:sqlserver导出csv文件 编辑:程序博客网 时间:2024/04/30 14:42

来源:http://blog.csdn.net/lxpbs8851/article/details/39317611

标准差是方差的平方根

1.方差公式:

m为x1,x2...xn数列的期望值(平均数)

s^2 = [(x1-m)^2 + (x2-m)^2 + ... (xn-m)^2]/n

s即为标准差

s^2为方差。

2.实例:

hive> select * from dim_row_num limit 10;                                                              
OK
0
1
2
3
4
5
6
7
8
9


hive> select stddev(row_num) from dim_row_num where row_num<10;   

的结果:  2.8722813232690143

即:

m = 4.5

s^2 = [(4.5*4.5 +3.5*3.5+2.5*2.5+1.5*1.5+0.5*0.5+0.5*0.5+1.5*1.5+2.5*2.5+3.5*3.5+4.5*4.5)/10]   -- 方差

s = 2.8722813232690143   -- 标准差

 

 

另外:

stddev_pop = stddev


stddev_samp :

s^2 = [(x1-m)^2 + (x2-m)^2 + ... (xn-m)^2]/n-1

 即:

m = 4.5

s^2 = [(4.5*4.5 +3.5*3.5+2.5*2.5+1.5*1.5+0.5*0.5+0.5*0.5+1.5*1.5+2.5*2.5+3.5*3.5+4.5*4.5)/9]   -- 方差

s = 3.0276503540974917  -- 标准差

 

标准差:

stddev=2.8722813232690143     

stddev_samp=3.0276503540974917     

stddev_pop=2.8722813232690143     

 

方差:

var_samp=stddev_samp^2=9.166666666666666      

var_pop=stddev_pop^2=8.25

 

3.总结:

当我们需要真实的标准差 方差的时候 最好是使用: stddev stddev_pop  var_pop

而只是需要得到少量数据 标准差 方差 的近似值 可以选用: stddev_samp var_samp

0 0