数理统计

来源：互联网发布：德兴软件ui设计师编辑：程序博客网时间：2024/05/18 00:42

当研究并解决一个实际问题时，我们会
遇到下面问题：
• 1. 这个随机现象可以用什么样的分布律
来刻划，这种分布律的选用合理吗？
• 2. 所选用的这一分布律的参数是多少？
如何估计和确定这些参数？
如何利用数据资料，作出尽可能精确可
靠的统计结论(统计推断):
1）估计——从局部观测资料的统计特征，推断总体的特征(分布与矩)；
2）假设检验——依据抽样数据资料，对总体的某种假设作检验，从而决定对此假定是拒绝抑或接受.

数理统计的基本概念

总体：研究对象全体; 也称母体, 记作S.
样本：总体中抽出作观测的个体;也称子样，记ω
样本容量：抽取的个体数目;也称样本大小.

例子

随机抽5支,得寿命数据(称为观察[测]值）：
725，520，683，992，742.(小时)
一般记为，x1 x2 x3 x4 x5.
又抽5支， x′1 x′2 x′3 x′4 x′5.
再抽5支， x′′1 x′′2 x′′3 x′′4 x′′5 .
…… ……
如此继续. 各组观察值彼此不同.
如此继续. 每组中的第一支灯的寿命，
也彼此不同. 这样，泛指所抽取的第一支荧光灯的寿命应是一个rv，记为
X1 . 同样第二支的寿命是rv X2 ，…
如此得一组rv : X1,X2,X3,X4,X5
称为大小为5的样本.
一般地则有大小（容量）为n 的样本,称x1,x2,...,xn为样本观察值[现实].
抽取的样本如能切实保证其随机性，那么应该彼此独立，且能反映总体的随机规律性，即所有样本彼此独立且与总体同分布. 这样的样本，我们称之为简单样本. 这种抽样方法，叫简单抽样.
注意，在有限总体中，各观察结果可能不独立.

样本的数字特征与分布

最简单又方便的样本函数g(X1,…,Xn)是Xi们的一次和二次的线性组合.
由于样本“平等”，线性组合中应有相等的权系数.

一次时:样本的算术平均值X¯¯¯;
二次时:中心化后的样本二阶中心矩S2n.
设X1,…,Xn为总体S的大小为n的样本，分别称

$X ¯ ¯ ¯ = 1 n \sum i = 1 n X i S 2 = 1 n - 1 \sum i = 1 n (X i - X ¯ ¯ ¯) 2$
为样本均值和*样本方差（样本方差除以n-1的原因），而依次称
$M k = 1 n \sum i = 1 n X k i S 2 n = 1 n \sum i = 1 n (X i - X ¯ ¯ ¯) 2$
为样本的k阶矩和样本的二阶中心矩.

记号：总体k阶矩：

$μ k = E X k \int + \infty - \infty x k d F X (x)$
总体的k阶中心矩：
$σ k = \int + \infty - \infty (x - E X) k d F X (x)$
μ=μ1,σ2=σ2.

注意
1)M1=X¯¯¯,S2n没叫样本方差.
2) 比较总体的期望μ、方差σ2与矩μk:
　　　1. 样本的均值、方差及k阶矩等都是rv，并且因n有限而总是存在的.
　　　2. 总体的期望、方差及k阶矩等不一定存在.且即便存在，也是实数值，而非rv.
3)代入观察值, 有相应的样本矩的观察值x,m以及s2 等.

性质如果总体k阶矩存在，则样本的k阶矩的数学期望等于总体的k阶矩，而当n趋于无穷时，样本的k阶矩以概率收敛到总体的k阶矩，即

顺序统计量与经验df

仍从观察值出发设法求总体分布. 以五支荧光灯寿命数据725,520,683,992,742为例，构造

其

df 函数(如后图)称为经验df函数.

设{xi}观察值重新依序排列为{x(n)}: x(1)≤x(2)≤⋯≤xn

令

称为由

{xi}决定的经验df, 简记为

F∗n(x).
将以从小到大为序重新排列的一个样本，称为顺序统计量，专记为

x(1) x(2) … xn
下面一个非常重要的定理确立经验

df 的重要地位. 此定理保证，几乎由每一组观察值得到的经验

df，只要n足够大，都可作为总体

df的近似. 定理中一致收敛性和几乎处处收敛性，给了我们充分的自由.从而由样本去找总体

df，理论上有一个完满的解决.

lim n \to \infty F * n (x) = F (x)

抽样分布与统计量

正态总体常用的样本函数

1.设总体S～N(μ,σ2). 则
样本均值X¯¯¯～N(μ,σ2n)，从而

Z : = X ¯ ¯ ¯ - μ σ / n \sqrt ～ N (0, 1)

K2n:=∑n1(Xi−μσ)2的分布

χ2(n)

K2n是

n个独立的标准正态变量的平方和,称

n个独立的标准正态变量的平方和的分布为自由度为

n的

χ2分布.
3.

(n−1)S2σ2～χ2(n−1)
样本均值与样本方差独立, 且

K 2 = ( n - 1 ) S 2 σ 2 = \sum 1 n (X i - X ¯ ¯ ¯ σ) 2 ～ χ 2 (n - 1)

在

K2n=∑n1(Xi−μσ)2中用

X¯¯¯易

μ得

K2.
4.

T:=X¯−μS/n√～　t(n−1)

Z:=X¯−μσ/n√～N(0,1)中如

σ未知，

S2是

σ2的无偏估计，自然用S代替Z中的

σ引入T
如果

Z　～Ｎ（０，１），Y～χ2(n)且独立，则称

t = Z Y / N - - - - \sqrt ～ t (n)

即自由度

n的

t分布.
5.

Fnm:=S21σ22S22σ21～F(n−1,m−1)
如果

X～χ2(n),Y～χ2(n)，且两者相互独立，则称

F=χ2(n)/nχ2(m)/m～Ｆ(n,m)
为自由度为n,m的F分布

性质

• t 分布是对称的,且n→∞极限为正态(n≥30时近似的效果就很好) .
• t 分布只有k<n阶矩.
• κ2分布和F分布不对称，且x<0 时为0.
• κ2 分布的可加性：设U 与V 独立，且分别~κ2(n)和κ2(m)，则U＋V～κ2(n+m).
对给定的实数α∈(0,0.5), 使

P (X > y) = \int \infty y f X (x) = α

成立的点

y, 称为

X 或其分布的上百分位

α点. 特别对

N(0,1)、

t(n)、

κ2(n)和

F(n,m)分布, 分别记为

z α, t α (n), χ 2 α (n), F α (n, m)

使

P (X > y) = \int \infty y f X (x) = 1 - α

成立的点

y, 称为

X 或其分布的下百分位

α点. 特别对

N(0,1)、

t(n)、

κ2(n)和

F(n,m)分布, 分别记为

z 1 - α, t 1 - α (n), χ 2 1 - α (n), F 1 - α (n, m)

百分位点的值，可由表查得.

例题：

例题1：

设X1,X2,…,Xn, 是来自总体X～N(0,σ2)的简单随机样本，求统计量

\sum 10 i = 1 ( - 1 ) i X i \sum 20 i = 11 X 2 i - - - - - - - - \sqrt

的分布。
解：
由题意可知

Xk～N(0,σ2)可得

∑10i=1(−1)iXi～N(0,10σ2)

∑10i=1(−1)iXi /10−−√σ～N(0,1)
又因为

∑20i=11(X2iσ)～χ2(10)
故由t分布定义可得

\sum 10 i = 1 ( - 1 ) i X i \sum 20 i = 11 X 2 i - - - - - - - - \sqrt = \sum 10 i = 1 ( - 1 ) i X i 10 - - \sqrt σ (\sum 20 i = 11 ( X 2 i / 10 ) σ) - 1 ～ t (10)

例题2：

设X1,X2,…,Xn+1是正态总体的简单样本，前面容量为n的样本均值和样本二阶中心矩分别为X¯¯¯ 和S2n
试求下列样本函数的分布
1)(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2
2)Xn+1−X¯Snn−1n+1−−−√

解：
1)
(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2=(Xi−μ)2σ2∑ni=2(Xi−μσ)2n−1
分子服从χ2(1)，分母服从χ2(n−1)
所以整个式子服从F(1,n−1)
2)
Xn+1−X¯Snn−1n+1−−−√
分母部分变成：
S2n(n−1)σ2～χ2(n−1)
分子部分变成：
Xn+1−X¯σ～Ｎ(0,1)
因此原式变成：
Xn+1−X¯σS2n(n−1)σ2√ / n−1√
服从t(n−1)

0 0