读书笔记∣商务与经济统计Ch.1-3

来源:互联网 发布:本田凌派maf标准数据 编辑:程序博客网 时间:2024/06/06 01:24


Ch.1数据与统计资料

1、数据data是为了描述和揭示所收集、分析、汇总的事实和数字,将用于特定研究而搜集的所有数据称为研究的数据集data set。

2、个体、变量和观测值

个体element是指搜集数据的实体,变量variable是个体所感兴趣的那些特征。在一项研究中,对每个个体的每一个变量收集测量值,从而得到数据。对某一个特定个体得到的测量值集合称为一个观测值observation。

3、测量尺度:名义尺度、顺序尺度、间隔尺度和比率尺度

(1)名义尺度nominal scale:一个变量的数据包含了用来识别个体属性的标记或名称,可以使用数值代码或非数字进行标记。

(2)顺序尺度ordinal scale:数据具有名义数据的性质,并且数据的顺序或等级的意义明确,可以使用数值代码或非数字进行标记。

(3)间隔尺度interval scale:数据具有顺序数据的性质,并且按照某一固定度量单位表示数值间的间隔,间隔数据永远是数值型的。

(4)比率尺度ratio scale:数据具有间隔数据的所有性质,并且两个数值之比是有意义的,比率尺度需要有一个零值,变量取零值时表示什么也不存在。

4、分类型数据和数值型数据

(1)分类型数据categorical data:归属于某一类别的数据,用标签或名称来识别项目的类型,既可以用名义尺度度量也可用顺序尺度度量。分类变量categorical variable是用分类型数据表示的变量。

(2)数值型数据quantitative data:用于表示大小或多少的数值,既可以用间隔尺度度量也可用比率尺度度量,数量型数据既可以是离散的也可是连续的,度量可数事物多少的数量型数据是离散的(如5分钟内接电话的个数),度量不可数事物的多少的数量型数据是连续的(如体重或时间),数量变量quantitative variable是用数量型数据表示的变量。

统计分析方法是否适合一个特定变量,取决于变量是分类变量还是数量变量,分类变量的统计分析方法极为有限,即使用数值代码表示,对其进行加减乘除等数学运算是没有意义的,而对数量变量进行数学运算,可以得到有意义的结果,其适用的统计分析方法也较多。

5、截面数据和时间序列数据

(1)截面数据cross-sectional data:在相同或相似相同的同一时点上搜集的数据。

(2)时间序列数据time series data:在几个时期内搜集的数据。

6、数据来源

(1)现有来源:为某一特定应用所需要的数据已经存在。

(2)统计研究:通过统计研究的方式获得数据,包括实验性和观测性(如问卷调查)两类。

7、描述统计descriptivestatistics

将数据以表格、图形或数值形式汇总的统计方法。

8、统计推断statisticalinference

(1)总体population是在一个特定研究中所有个体组成的集合;样本sample是总体的一个子集。

(2)搜集总体全部数据的调查过程称为普查census;搜集样本数据的调查过程称为抽样调查sample survey。

(3)利用样本数据对总体数据进行估计和假设检验的过程称为统计推断。

Ch.2 描述统计学1:表格法和图形法


1、分类型数据的汇总

(1)频数分布:一种数据的表格汇总,表示在几个互不重叠组别中的每一组项目的个数(频数)。组的相对频数=组的频数/观测值的个数,百分比频数=相对频数*100%,相对频数分布是每一组相对频数数据的表格汇总,百分比频数分布式每一组百分数频数数据的表格汇总。

(2)条形图:描绘已汇总的分类型数据的频数分布、相对频数分布和百分数频数分布的图形方法。

(3)饼形图:描绘分类型数据的相对频数和百分数频数分布的图形方法。

2、数值型数据的汇总

(1)频数分布

组数:组是通过对数据规定范围而形成的,这个规定的范围用于对数据进行分组,一般使用5-20组。

组宽:建议每组的组宽相同,近似组宽=(数据最大值-数据最小值)/组数

组限:每一个数据值属于且只属于一组,下组限定义被分到该组的最小可能的数据值,上组限定义定义被分到该组的最大可能的数据值,分类型数据的频数分布不需要规定组限,数值型数据则很有必要。

组中值class midpoint:上组限和下组限的中间值。

相对频数分布和百分数频数分布同分类型数据。

(2)打点图dot plot

(3)直方图:相比条形图,直方图相临的长方形之间没有自然的间隔。

(4)累积分布:小于或等于每一组上组限的数据项个数,而不是每一组的频数。

(5)茎叶显示:同时显示数据的等级顺序和分布形状的图形。

3、用表格方式汇总两个变量的数据

(1)交叉分组表:汇总两个变量数据的方法。

(2)辛普森悖论:从两个或多个单独的交叉分组表得到的结论与一个综合的交叉分组表数据得到的结论可能截然相反,依据综合和为综合数据得到的相反的结论被称为辛普森悖论。我们在得出结论前,应审查交叉分组表是综合形式还是未综合形式,以便提出较好的见解和结论。

4、用图形显示方式汇总两个变量的数据

(1)散点图和趋势线

(2)复合条形图:对已汇总的多个条形图同时显示的一种图形显示方式;结构条形图:每一长条被分解为不同颜色的矩形段的条形图。

对变量的度量可以是对只包含一个变量的数据集建立数据汇总的度量方法,而当数据集包含的变量不止一个时,可以对每个变量分别计算其相同的数值测度,还可以建立变量间相互关系的度量。

如果数据来自样本,计算的度量称为样本统计量,如果数据来自总体,计算的度量称为总体参数,在总体推断中,样本统计量被称为相应总体参数的点估计量。

Ch.3 描述统计学2:数值方法

1、位置的度量

(1)平均数:数据中心位置的度量

样本平均数/总体平均数:每个观测值都有相同的权重1/n


加权样本平均数/加权总体平均数:每个观测值都有不同的权重wn


几何平均数:分为简单几何平均数与加权几何平均数

调整平均数:从数据中删除一定比例的最大值和最小值,然后计算剩余数据的平均数。

(2)中位数:当数据集含有极端值时,中位数比平均数更合适。

(3)众数

(4)百分位数:第p百分位数将数据分割为两部分,大约有p%的观测值比第p百分位数小,大约有(100-p)%的观测值比第p百分位数大。

(5)四分位数:将数据划分为四部分,每一部分大约包含1/4或25%的观测值:

Q1=第一四分位数,或第25百分位数

Q2=第二四分位数,或第50百分位数(中位数)

Q3=第三四分位数,或第75百分位数

2、变异(离散)程度的度量

(1)极差

(2)四分位数间距:第三四分位数Q3与第一四分位数Q1的差值,即中间50%的数据的极差。

(3)方差:对所有数据变异程度所做的度量

(4)标准差

(5)标准差系数:(标准差/平均数*100)%

3、分布形态、相对位置的度量及异常值检测

(1)分布形态:直方图的偏度

(2)z-分数(标准化数值)

(3)切比雪夫定理:与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。

(4)经验法则:对于具有钟形分布的数据,可用来计算与平均数的距离在1个、2个和3个标准差之内的数据值所占比例的法则。

(5)异常值检测:z-分数;第一四分位数和第三四分位数以及四分位数间距为依据。

4、五数概括法和箱形图

(1)五数概括:最小值、第一四分位数、中位数、第三四分位数、最大值

(2)箱形图:基于五数概括发的数据图形汇总

5、两变量间关系的度量

(1)协方差

(2)相关系数

 


原创粉丝点击