统计学 学习笔记 (七)—— 回到现实:得不到数据的整体怎么办?

来源:互联网 发布:广州有机云计算 编辑:程序博客网 时间:2024/06/04 18:35

又有这么久没更新了,加油加油。


(以下讨论基于《医用统计方法》的相关章节,就不一一标明了。)

在上面的所有讨论中,我们都假设拿到的数据集是一个整体。但在医学统计学中,用某个数据的全集来做分析和研究是不现实的。一方面,很难得到全部数据;另一方面,医学领域的数据集全集往往数量非常庞大,很难直接用统计学工具计算出来。比如要研究某市所有60岁以上得糖尿病的老年人的某项治疗情况,就是一个非常大且不太可能完全得到的数字。

还好有聪明人发明了“抽样研究”的方法。就是从总体中随机抽取出样本来进行研究,继而推论总体的方法。

实际经验告诉我们,只要在抽样的时候能够尽量避免“系统误差(Systematic Error,由于实验者的技术错误、测量仪器不准确或标准试剂没有校准等原因造成一些带有一定倾向的偏差)”,抽样这个方法还是值得采纳的。但还必须考虑抽样误差(Sampling Error),也就是由于抽样而引起的样本统计量与总体参数间的差异。抽样误差这个东西在抽样过程中肯定存在。理想情况下,只要样本是随机抽取的,抽样误差是随机的,就可以用统计方法来计算/估计其大小,并通过样本来推测总体,并进行各种统计指标的差别有无统计学意义的检验。样本的随机抽取需要试验者进行控制,在假设其随机的条件下,相应的统计学方法就可以用来计算抽样误差的大小。

均值的标准误

在讨论总体和样本之间的关系时,常常用总体均值和样本均值来分别代表二者。下面讨论抽样误差及其统计学检验时,基本都会遵循这个规则。

由于抽样误差的存在,当从同一个总体中随机抽取多个含量相等的样本时,可以想象每个样本的均值大小不一样,但始终会“围绕”总体均值的大小波动。已有经验表明,当总体呈正态分布,或样本含量较大时,抽得的多个样本的均值会以总体均值为中心呈正态分布。

之前讨论数据的变异性时,提到标准差可以表示数据组中所有数值与均值的平均距离。这儿也有一个指标可以用来表示样本均值相较总体均值的变异情况,即均值的标准误(standard error)。


其中,为均值的标准误;为第i个样本的均值;为总体均值;k为样本个数。

(从这个公式本身而言,当每次抽样的样本不一样,样本的数量不一样,得到的标准误肯定也不一样。不知道在实际情况中是怎样使用这个公式的。)

从标准误的概念出发,还可以导出另一个计算公式。

  1. 可以想象,当总体中各数值相等时,抽得的各样本均值也一定相同。当总体中各取值变化很大时,则抽得的各样本均值大小也会相差很多。也就是说,当样本含量固定时,标准误的大小与总体的标准差()成正比。
  2. 当抽取的样本含量越大时,样本越接近总体,从而样本的均值和总体均值越接近,抽样误差越小。所以标准误的大小也和样本含量(n)有关。

根据数理统计的研究结果,三者之间呈现如下关系:


有了均值的标准误的计算方法,我们就可以进行均值差别的统计学意义检验了。



原创粉丝点击