深度学习系列笔记之统计基础

来源：互联网发布：在淘宝上买微星笔记本编辑：程序博客网时间：2024/05/21 01:52

研究方法入门

进行调查
信任调查结果吗?
调查了谁?
调查了多少人?
调查是怎么进行的?
影响结果的是潜在变量
抽样总体的平均得分叫作总体参数μ
抽样数据和总体数据之间有个叫抽样误差 μ -x
怎样使样本数据的平均值x更接近总体参数μ 使用大量的样本使用随机无偏差的样本能更加准确的测量总体参数μ
随机样本,每个被选中的机率是一样的
数据可视化
将一行行的数据进行画图操作,从而更容易发现他们之间的关系
数据有很多种类型比如原始数据图标数据我们需要选择合适的data 来表示关系
同时需要控制潜在变量
显示关系–观察组
显示因果–对照组
调查问卷的优势
它是了解总体的最简单方式之一
相对来说成本较低
可以远程进行
任何人都可以访问并分析调查结果

调查问卷的缺点
不真实的回答
有偏见的回答
参与者没理解问题的意思
参与者拒绝回答

单盲安慰剂从心理上避免影响到效果
双盲调查人员也不知道他们吃的是哪一种药片, 从而避免判断偏差
控制因素同一时间同一地点药片外观

统计相关术语
population 总体调查1学校的学生的睡眠质量 1学校里全部的学生叫总体
sample 样本调查1学校的学生的睡眠质量从3000名学生抽出100名 100名学生叫样本
statistic 统计量发现这些学生都睡6.2个小时那么这个值叫统计量
parameter 表示总体的数字叫参数比如3000
在使用一个样本对一个总体进行推理时，样本的平均值可能不会完全等于总体的平均值。样本和总体平均值之间的差异称为：
抽样误差 sampling error
调查的目标要有能力代表整个全体
构造（constructs／抽象概念）
操作性定义operational definition 一种将构造（constructs）转变为我们可衡量的变量的方式
variables 变量
hypothesis 假设
extraneous 额外
lurking variables 潜在变量
是会影响我们衡量的两个或多个变量之间关系的因素
在我们做出确定的因果声明之前，必须在试验中加以控制
使从观察性研究的数据中确定因果关系变得困难
a random sample 随即样本
□ 以选中概率相同的方式选择个体。
□ 以选中一个个体不会影响另一个个体被选中几率的方式选择个体

convenience sample 便利样本
操作自变量(dependent variables) 观察因变量(independent variables) 控制潜在变量(lurking variables)
别错把相关性当作因果关系
placebo 安慰剂对照组
experimental study 实验性研究
observational study 观察型研究

数据可视化

有了表格也很难的出结论,所以需要数据可视化
frequency 频数绝对频率 50个中的12个
relation frequency 相对频率 12个/50个 =0.24
比例的范围在0-1之间
所有相对频率相加等于1 代表我们考虑了所有情况
interval 区间
bin 容器
bucket 桶
直方图
original 原点
组距 bin size
组距是对频率进行计数的区间
直方图 histogram 但是对于年龄来说我可以选择不同的组距 numerical数字性 /quantitative 可以量化的
柱状图 bar graph 每个柱都是独特的类别 categorical类别性/qualitative 分类别的
normally distributed 正态分布 one peak 峰值 mode 众数
增大组距频率变大
Σ 符号是希腊字母西格玛的大写形式，表示总数。
deviation 偏差与某个事物的差值

集中趋势

频率最高的地方叫众数 mode 在描述分布时十分有效
分布中间的叫中位数 median
平均数 average properties
分布的众数是区间
skewed distribution 偏斜分布
uniform distribution 均匀分布这类分布没有众数
bi-model distribution 双峰分布这类有多个众数
众数是出现在X轴上的
求和符号sigma
misleading 误导性
outlier 异常值
众数不受异常值影响平均值则会
均值 mean
正偏斜(skewed)分布下降 mean>median>mode
正态分布 mean=median=mode
负偏斜分部上升

mean
□ 有一个简单的公式
□ 如果数据集中有数据的值变化，它也一定会变化
□ 不受组距变化的影响
median
□ 不受组距变化的影响
□ 不易受到异常值的影响
mode
□ 不易受到异常值的影响
□ 容易在直方图上找到

差异性

如何对分散的数据进行量化,如何看待最大值和最小值
range 值域 spread out 分散 extreme value 极值
统计学处理异常值是切掉首尾习惯上是首25% 尾25%
one quartile 1/4 Q1 所有数据分为两份第一份的中位数就是Q1
third quartile 3/4 Q3 第二份的中位数就是Q3 整份数据的中位数就是Q2
IQR –>inter quartile range –>四分卫差 IQR=Q3-Q1
几乎 50% 的数据在 IQR 间
IQR 不受异常值的影响。
Q3+1.5(IQR) < outlier(异常值) < Q1-1.5(IQR)
2.5Q3-1.5Q1 < outlier(异常值) < 2.5Q1-1.5Q3
box plots 箱线图更直观的表现出4分位差和outlier
这里写图片描述
越分散箱子越大
均值不会一直在Q1和Q3之间
比如 0,1,1,1,1,1,2,2,2,2,3,3,3,4,5,90
deviation 离均差
variance 方差 sigma (xi-x)^2/n
standard deviation 标准差 σ

正态分布
正态曲线下，横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
P{|X-μ|<σ}=2Φ(1)-1=0.6826
横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。
P{|X-μ|<2σ}=2Φ(2)-1=0.9544
横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
P{|X-μ|<3σ}=2Φ(3)-1=0.9974

通常抽样中会低估了总体中差异性的数量
因为抽样总是总体居中的值
尤其是在正态分布中多数值居中所以抽样性的差异少于总体差异
为了纠正这个信息我们使用 bessel’s correction(贝塞尔校正系数) 由原来的除数n 变为n-1
sample standard deviation 样本标准差用n-1的与等于标准差

归一化

z=(x-μ)/σ z指的是任何值距离平均值的标准偏差数
先x-μ 使分布图像左移中心至0点, 然后除以σ 使标准差为1
得到的图像叫作standard normal distribution 标准正态分布
σ越小正态分布图像越高

正态分布

probability density function– PDF–概率密度函数
Ztable 小于Z-scrose 的表格
这里写图片描述

抽样分布

expected value 期望值
http://www.wolframalpha.com 图表网站
1, 1.5, 2, 2.5, 1.5, 2, 2.5, 3, 2, 2.5, 3, 3.5, 2.5, 3, 3.5, 4
σ/SE =? =√2 也就是√n
σ–>总体标准偏差 population SE 所有样本均值的标准偏差
central limit theorem 中心极限定理

估计

2σ√n–>margin of error –>误差范围(界限)
95%的数值会落在 (μ-2σ√n,μ-2σ√n) 这个范围内如果总体的均值是40的话
那么μ 的范围就应该是 40-2σ√n<μ<40+2σ√n
在误差范围内叫作95%置信区间 –>95% confidence interval CI
那么他的Z值是在-1.96,1.96
样本越大置信区间越小
98% confidence interval of Z is 2.33
什么是Z-score ?
什么是standard-deviation ?
什么是sampling distribution ?
什么是stand error?
泛化置信区间 x_bar-z*σ/√n,x_bar+z*σ/√n
离x_bar 两侧的距离成为误差界限 margin of error

这里写图片描述

总体参数点估计的主要问题是没有考虑抽样误差

误差范围是置信区间的Z * SE

假设检验

α 水平是用来判断某个事物可能发生或不可能发生的标准
如果样本均值的概率小于α 水平,那它不太可能发生
样本均值概率小于 0.01 时，被视为不太可能发生
临界值(critical region)小于5%的叫临界值
如果样本均值小于5% z=1.65/1.96 (one tail/two )
如果样本均值小于1% z=2.32/2.56
如果样本均值小于0.1% z=3.08/3.31
one-tail 单尾检测 directional 方向性
two-tails 双尾检验
参与度均值 7.13 在概率小于 0.05 时具有统计显著意义
样本均值要不落在临界值里,或临界值之外这个叫零假设 null hypothesis 当前总体参数和在出现某种干预
出现的新总体参数之间没有显著差异
alternative hypothesis 对立假设 ha
我们讲
h0 :很多狗都有4条腿 (定义超过50%为很多)
ha:很多狗都有不到4条腿 (单尾检测注意,这里是有”不到”这个词, 所以是单尾)
拒绝零假设的意思是什么?样本均值在临界区域之内,样本均值的 Z 值大于 Z 临界值,得到样本均值的概率小于 α 水平 (存在显著差异)
如果h0是对的而又reject h0 我们叫作I型错误如果h0是错的,而又接受了h0我们叫作II型错误
喝热水烫嘴 ,下雨带伞
零假设就是否定可能的选项, 当Z值很大意思是概率很小的时候我们就可以拒绝零假设,新的策略就会比老的策略有效

T检验

means different/SE 但是SE是依靠样本的现在我们总体的σ不知道,所以我们把这个不确定的分布叫作T分布 t-distribution –它更容易错,所以更分散
随着样本量 n 增大,t 分布接近正态分布,t 分布的末端变得更矮（分布更窄）,样本标准偏差 s 会更接近 σ
t-distribution 用自由度degrees of freedom 来定义
自由度是什么概念吗?(挑n个数相加等于10 n-1 ,三门课挑选顺序,2,N个数随便挑一个,n,n*n方格有(n-1)^2)
the effective sample size 有效取样数
t值越大越有自信证明抽样均值和μ 有显著不同
variance 方差 p-value 是大于小于t的概率
https://www.graphpad.com/quickcalcs/pValue2/ 算p值的地址
在对比均值衡量效果大小的一个常见标准叫cohen’s d,两个均值之间的标准化均值差以标准偏差为单位
cohen’s d=(x_bar-μ)/SE (样本标准差) 越大越远
margin of error –>t*se/√n
相依样本 dependent sample
如果受试者参加两次测试就是相依样本
受试者内设计 within-subject design
tow condition 两个条件
pre-test post-test
growth over time (longitudinal study纵向研究)
两款键盘不同的手机
repeated measures design 重复方法设计
longitudinal design 在早些时候衡量某个变量的值然后在晚些时候衡量某个变量的值
pretest posttest 先衡量某个变量然后做某些变化,然后在衡量这个变量看看措施是否有显著效果
什么时候用T检验 –不知道总体参数的情况下
4岁检查词汇量 8岁再查相依样本–longitudinal
均值和差异的标准偏差 x_d_bar=x2_bar-x1_bar
sd=√(s1^2+s2^2)
effect size 效应量处理效应的大小
效应量的类型
一种叫差异度量 difference measures
mean difference
standardized difference
cohen’s d -sd unit
还有一种叫相关度量 correlation measures
r^2 表示某个变化的变化比例
statistical significance 统计显著性意味着 reject null hypothesis 还表示,我们的结果是不太可能发生的或者抽样错误导致的
有意义的结果
1.我们度量了什么
2.effect size 效应量
3.我们能对结果排除随机因素吗(也就是说我们能排除抽样错误吗)
4.我们是否能排除结果的对立解释(潜在变量)
cohen’s d 是一种效应量度量,代表标准化均值差异
相关度量 correlation measures
r^2 –有时又称为确定系数 –coefficient of determination
它是一个比例范围是0-1 0表示两个变量根本没有联系 1表示完全相关
在t检验中 r^2 =t^2/t^2+df
result section
1.descriptive statistics(Md ,SD) 描述统计量有三种表达方式 1.文本2,图标,3表格
2.inferential statistic (hypothesis test 始终提供α 1.what kind test 2.test statistic 3.df 4.p-value 5.direction of test (one-tail or two tail ))
APA style
t(df)=x.xx,p=x.xx,direction
t(24)=-2.50,p<.05,one-tailed
报告置信区间
confidence level 95%??
lower limit,
upper limit,
CI on what ?
置信区间用途是什么,给我们带来什么信息
confidence interval on the mean difference ;95% CI=(4,6)
3.我们要写出效应量可以是cohen’s d 或者r^2
APA格式就是 d=x.xx r^2=x.xx APA格式如果前面小于0的,就直接 .xx

full one -sample t test
工具:
1.纸笔
2.计算器
公式 formulas:
df=n-1 自由度等于样本量-1
SEM=s/√n 均值的标准误差等于样本标准偏差除以样本量的平方根
t=x_bar-μ/SEM 样本均值减去总体均值除以均值的标准误差
CI=x_bar_+margin of error 误差界限
margin of error =t critical *SEM t的临界值乘以均值的标准误差
cohen’s d=x_bar-μ/S (均值差异除以样本的标准差)
r^2 =t^2/t^2+df

零假设 null hypothesis 陈述为没有改变,没有差异如果有处理,就是处理无效
相依样本
-两个条件 two conditions
-单个时长 longitudinal
-之前之后 pre-test post-test
好处
控制了个体差异
更少的参与者
更少的时间
更少的成本
不足
carry-over effect 数学课第二个方法可以影响到第一个方法
顺序可能影响结果, 两个药丸药丸之间有互相影响

独立样本好处和其相反
这里写图片描述

CI = x1_bar-x2_bar +_ t *SE
t –>t-critical value 不是统计量(t-statistic)的t
SE–>standard error –>取正值

r^2 里的t 是统计量的t 也就是算出来的t 也就x_bar-x2_bar/SE
算出来的值表示只有r^2的相关性是性别不同造成的

合并方差 pool variance
sp^2 =(ss1+ss2)/(df1+df2)
ss1=Σ(x-x_bar)^2

可以把合并方差带入SE=√(sp^2/n1+sp^2/n2)
这里写图片描述
通常我们使用合并方差,他纠正了样本量的不同

T-test assumptions
x y 应该来自两个独立总体的随即样本
x y 来自的总体应该是正态分布的
样本数据可以用来估计总体方差
总体方差应该大致相等

阅读全文

1 0