数理统计概念

来源：互联网发布：手机视频剪辑拼接软件编辑：程序博客网时间：2024/04/30 21:01

1、总体：研究对象的全体X。

2、个体：组成总体的每一个元素。

3、简单抽样：从总体X中抽出X1,...,Xn个体。

代表性：样本与总体同分布，各个体抽到的机会均等。

独立性：各样本元素相互独立，抽出样本后，总体元素近似不变。

4、样本：简单抽样对应的随机向量（X1,...,Xn)为总体X的一个样本，其所有可能的取值的集合为样本空间，每次抽样所得的具体数值（x1,...,xn）为样本观察值（样本点），n为样本容量。

5、统计量：不含未知参数的样本函数g(X1,...,Xn)，g(x1,...,xn)为其观察值，统计量也为随机变量。

样本均值：∑（Xi)/n

样本方差：S^2=∑(Xi-样本均值)^2/(n-1)

6、抽样分布：统计量的分布叫做抽样分布，由于统计量是样本的函数，而样本与总体同分布，且相互独立，故统计量的分布由样本的联合分布Π（联合分布函数（连乘））唯一确定，即由总体分布唯一确定。

7、Z分布：将正态分布化成标准正态分布。

8、卡方分布x^2（n)： 标准正态分布样本的平方和。

9、T分布：对标准正态分布X，卡方分布Y，T=X/sqrt(Y/n)

10、点估计（定植估计）：由估计量的观察值作为未知参数的估计值。

11、区间估计：估计未知参数所在的一个范围，并指出参数被包含在改范围内的概率。

12、点估计的方法：

顺序估计：样本中位数及样本极差

距估计（数字特征法）：样本均值估计总体的均值；样本方差估计总体的方差

极大似然估计法：根据“概率最大的事件最可能发生”

设总体X的概率密度函数f(x,θ)只含一个未知参数θ，（X1,...,Xn)为总体X的一个样本，（x1,...,xn）为样本的一组观察值，样本的联合概率密度

Πf(xi,θ)=L(x1,...,xn,θ)=L(θ)称为似然函数。

当θ已知时，似然函数L描述了样本取得观察值（x1,...,xn)的可能性，“最可能出现”的样本观察值是使得似然函数L达到极大值的样本值。同样，当一组样本观察值取定时（抽样完成），要问它最大可能取自什么样的总体（即总体的参数θ应等于什么时的可能性最大），也要从似然函数L=L（θ）的极大化中求出相应的θ值来，这个值就是θ的一个估计值。

max L(x1,...,xn,θ)可得到θ的极大似然估计值。可对L或者ln(L)求导=0得到。

13、点估计的优劣标准：

无偏性：估计量的数学期望=估计量对应的待估计未知参数

有效性：估计量的方差越小越有效

一致性：估计量依概率收敛于其对应的待估计未知参数

14、参数的区间估计

15、统计假设H：关于总体X的分布（或随机事件的概率）的各种论断。

16、显著性水平：

α表示原假设为真时，拒绝原假设的概率：P{拒绝H0|H0真}=α，即犯弃真错误的概率。

估计总体参数落在某一区间内，可能犯错误的概率为显著性水平，用α表示

1-α 为置信度或置信水平，其表明了区间估计的可靠性

统计假设检验也称为显著性检验，即指样本统计量和假设的总体参数之间的显著性差异。显著性是对差异的程度而言的，程度不同说明引起变动的原因也有不同：一类是条件差异，一类是随机差异。显著性差异就是实际样本统计量的取值和假设的总体参数的差异超过了通常的偶然因素的作用范围，说明还有系统性的因素发生作用，因而就可以否定某种条件不起作用的假设。假设检验时提出的假设称为原假设或无效假设，就是假定样本统计量与总体参数的差异都是由随机因素引起，不存在条件变动因素。

假设检验运用了小概率原理，事先确定的作为判断的界限，即允许的小概率的标准，称为显著性水平。如果根据命题的原假设所计算出来的概率小于这个标准，就拒绝原假设；大于这个标准则不拒绝原假设。这样显著性水平把概率分布分为两个区间：拒绝区间，不拒绝区间。

显著性水平不是一个固定不变的数字，其越大，则原假设被拒绝的可能性愈大，原假设为真而被否定的风险也愈大。显著性水平应根据所研究的的性质和我们对结论准确性所持的要求而定。

17、假设检验的步骤：

1.根据实际情况提出原假设H0和备择假设H1；

2.根据假设的特征，选择合适的检验统计量U；检验统计量U的分布应已知，才能根据其概率分布求出显著性水平α下，计算其对应的临界值(或者查表）。

3.根据样本观察值，计算检验统计量的观察值(obs)；

4.选择许容显著性水平α，并根据相应的统计量的统计分布表查出相应的临界值(ctrit)；

5.根据检验统计量观察值的位置决定原假设取舍。

18、Z检验：若总体X遵从正态分布N(μ，σ^2)，其中σ^2已知，统计量Z准从标准正态分布，按标准正态分布进行显著性检验。

19、T检验：若总体X遵从正态分布N(μ，σ^2)，其中σ^2未知，用σ^2的无偏统计量样本方差S^2来代替，于是选取统计量T，服从自由的为n-1的T分布。

20、x^2卡方检验：单正态总体方差的检验法

21、F检验：二正态总体方差比的检验法

22、总体分布函数的假设检验

卡方检验法的基本原理和步骤

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。

注意：卡方检验针对分类变量。

（1）提出原假设：

H₀：总体X的分布函数为F(x).

如果总体分布为离散型，则假设具体为

H₀：总体X的分布律为P{X=x_i}=p_{i， i=1，2，...}

（2）将总体X的取值范围分成k个互不相交的小区间A1，A2，A3，…，Ak，如可取

A1=（a0，a1]，A2=(a1，a2]，...，Ak=(ak-1,ak)，

其中a0可取-∞，ak可取+∞，区间的划分视具体情况而定，但要使每个小区间所含的样本值个数不小于5，而区间个数k不要太大也不要太小。

（3）把落入第i个小区间的Ai的样本值的个数记作fi，成为组频数（真实值），所有组频数之和f1+f2+...+fk等于样本容量n。

（4）当H0为真时，根据所假设的总体理论分布，可算出总体X的值落入第i 个小区间Ai的概率pi，于是，npi就是落入第i个小区间Ai的样本值的理论频数（理论值）。

(5)当H0为真时，n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近，当H0不真时，则fi/n与pi相差很大。基于这种思想，皮尔逊引进如下检验统计量

，在0假设成立的情况下服从自由度为k-1的卡方分布。

0 0