概率论学习
来源:互联网 发布:mac做win8启动盘 编辑:程序博客网 时间:2024/06/14 03:32
数字特征概述
在我们学习概率论的时候,很多时候我们不能深刻理解概率论中的数字特征所具有的含义,本文章尝试去帮助读者理解一些术语、概念。
什么是数字特征?要回答这个问题,先得弄清楚什么是特征。特征是一个客体或一组客体特性的抽象结果。特征是用来描述概念的。任一客体或一组客体都具有众多特性,人们根据客体所共有的特性抽象出某一概念,该概念便成为了特征。而数字特征是对于数字的一种抽象方式,不同的抽象方式表现数字不同方面的数字特征(如,均值表现平均水平,方差表示离散程度)。从信息的角度来说,特征化(抽象)是压缩信息的一种方式。
为何会有数字特征?特征化是人们压缩数据的一种方式,它能够反映一些群体的某方面的特点。举个简单的例子,校长去某个班调查学生的学习水平,他不太可能去查看询问每个人的成绩(那样子是十分耗时的一件事情)。所以我们将班级的成绩信息进行压缩,压缩成均值,众数,标准差等,以此来为校长提供其所关心的平均水平,成绩差异程度等。
在数字特征的构造中,统一量纲 是一个十分重要的原则,下面的各个的数字特征中都会有所体现。下图说明,各个数字特征之间可以进行的运算
图1:(未涉及协方差,相关系数)
- 一些 不同随机变量的同一数字特征是可比较的。
一些 同一随机变量的不同数字特征是可比较的。
区分概率论与统计学(参考):
【知乎】概率论与统计学的关系是什么?
随机变量
要想理解数字特征,弄清楚随机变量这一个概念是十分重要的。
常见数字特征
本小节主要介绍概率论中常见的一些数字特征,并且说明其直观的物理意义。这里只讨论离散型随机变量的数字特征。
数学期望(均值)
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。是最基本的数学特征之一。它反映随机变量平均取值的大小。其公式如下:
数学期望反映的是平均水平。通过它,我们能够了解一个群体的平均水平(比如说,一个班平均成绩80)。但另外一个方面,它所包含的信息也是十分有限的,首先是个体信息被压缩了,其次如果单纯看期望的话,是看不出样本的数量。(平均成绩为80,在1人班和100人班的含义是不一样的)
通过这个问题想说明,在刻画群体特征的时候,多个数字特征配合才能达到效果。(上面的例子:可以是 期望 + 数量)
方差
(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究方差即偏离程度有着重要意义。
方差(
公式逐步解释:
平方
ps : 方差的性质这里就不介绍了,可查看概率书籍。
标准差
标准差也是用于衡量一组数据的离散程度的。公式如下,可以看出标准差(
方差与标准差有何区别呢?(下面两个例子来自知乎:有了方差为什么需要标准差?)
标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。
再举个例子,从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%,也可以称为“正负3个标准差”。如果没有标准差这个概念,我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的,这个范围描述还要加上一个单位,这时候为了方便,人们就自然而然地将这个量单独提取出来了。
协方差
前面一直在探讨单个随机变量(1维),但是事实上当我们考察一个群体的时候,往往事物的属性是多方面的(多维),这里只考察2维情况,形式如:
下面解释一下上面的结论的含义(为何X、Y独立,Cov(X,Y)就为0 ?)。
如果X,Y有关系,那么关联性会使得某个变量的随机性不再那么随机。即,假如说X是随机的,X的值确定后会限定Y的随机性(将Y限定在某个范围)。这里举个简单的例子,假如学生具有(年龄,年级)两个属性,如果年龄是17岁,那么年级范围很可能是在高中范围内。年龄这个变量影响着年级这个变量。
如果X,Y有关系,从关系传递性角度来说,离差
协方差计算公式
协方差性质
总结一下,
其他关于协方差理解:【知乎】如何通俗易懂地解释「协方差」与「相关系数」的概念?
相关系数
前面把比较关键的协方差说了一下,接下来说一下建立在协方差公式基础上的相关系数。简而言之,相关系数是对协方差进行了归一化处理,使其区间处于
下面看看相关系数
定理
需要注意的一些事情
- 【线性】
ρ XY 表示的是X,Y之间线性相关程度。(不适用于多次方,指数等) ρ XY =0 ,我们称X,Y不相关。- 【独立,相关】
X,Y相互独立=>ρ XY =0 【独立,相关】X,Y相互独立 ,则
ρ XY =0 ;ρ XY =0 ,不能推出X,Y相互独立。(ρ XY =0 只能说明非线性相关,但X,Y可能是非线性相关)因为思想部分已经在协方差部分说了,这里不再赘述。
协方差矩阵
前面已经说了协方差的意义,协方差在于探索随机变量之间的关系。协方差矩阵计算的是不同维度之间的协方差。不是样本之间的关联关系。
协方差探索的是随机变量X,Y之间的相关性,是放在同一个样本中来进行的。举一个简单的例子,学生小明(年龄17岁,年级为高2),小红(年龄17岁,年级为高3),小明、小红就是我们所说的样本,而年龄、年级则是随机变量。计算协方差时,考虑的是小明年龄和小明年级之间的关联关系(一个样本自身属性之间的关联关系)。未考虑小明、小红之间是否有关联关系(样本之间是否有关联关系)。
当样本含有大量维度(随机变量多)的时候,我们就需要使用矩阵来刻画各个维度之间的关联关系。
设谋个矩阵如下:
(下面矩阵中每一行代表一个样本,每一列代表一个随机变量。)
则其协方差矩阵为:
转载自:http://blog.csdn.net/thesnowboy_2/article/details/69564226
- 概率论学习
- 概率论学习笔记
- 机器学习概率论基础
- 概率论与数理统计学习
- 如何学习“概率论与数理统计”
- 机器学习基础-概率论知识点
- 概率论快速学习01:计数
- 机器学习的概率论概述
- 概率论与数理统计学习总结
- 概率论与数理统计学习笔记
- 概率论与数理统计 学习笔记
- 机器学习基础---概率论基础知识
- 概率论
- 概率论
- 概率论
- 概率论
- 概率论
- 概率论
- 排列组合
- CIFS文件系统
- 启发式算法给Gurobi 输入初始解
- java 常用集合list与Set、Map区别及适用场景总结
- widerface转换为pascal数据集的格式
- 概率论学习
- POJ 2135 Farm Tour(最小费用最大流)
- java随机生成6位数
- [cnblogs@WhenISeeYouAgain]模拟IIC协议时序
- Python 装饰器
- 正则表达式随笔小记(一)
- Hbase原理、基本概念、基本架构
- vim配置及插件安装管理(超级详细)
- hdu 4937 Lucky Number 数学(进制转换)