MLaPP Chapter 2 Probability 概率论
来源:互联网 发布:java要学多久能学会 编辑:程序博客网 时间:2024/05/01 18:33
2.1 Introduction 简介
对概率一般有两种理解(interpretations):
- frequentist interpretation,
- 这个层面上是说,概率可以看作是多次事件实验的发生的频率的逼近
- 举个例子,假如进行很多次抛硬币实验,会发现最终硬币会出现正面的概率为0.5
- Bayesian interpretation,
- 贝叶斯派常把概率当做是量化事件不确定型的工具
- 原文 (probability is used to quantify our uncertainty about something)
- 贝叶斯派理解概率的好处是,可以拿来估算那些无法进行多次重复实验的事件
- 如2020年之前北极冰川融化的概率
- 贝叶斯派常把概率当做是量化事件不确定型的工具
2.2 A brief review of probability theory 概率论复习
2.2.1 Discrete random variables 离散随机变量
2.2.2 Fundamental rules 基本规则
2.2.2.1 Probability of a union of two events 事件的并集
2.2.2.2 Joint probabilities 联合概率
- Joint probabilities 联合概率
p(A,B)=p(A∧B)=p(A|B)P(B)=P(B|A)P(A) - 联合概率可以通过条件概率得到,有时候称为 product rule
- margin distribution 边缘分布公式:
p(A)=∑bp(A,B)=∑bp(A|B)p(B=b) - 边缘分布可以有联合概率分布沿着特定的随机变量求和得到,有时候称为 sum rule or the rule of total probability
2.2.2.3 Conditional probability 条件概率
2.2.3 Bayes rule 贝叶斯规则
2.2.3.1 Example: medical diagnosis
癌症检测的敏感度是80%,即如果你有癌症,那么检测阳性的概率为80%,
利用上面的信息和贝叶斯规则,就可推断出正确的答案了,即检测为阳性的情况下,实际也是的癌症的概率为
2.2.3.2 Example: Generative classifiers
- 生成分类器(generative classifier)
- 因为我们用到了class-conditional density
p(x|y=c) 和 先验 priorp(y=c)
- 因为我们用到了class-conditional density
- 判别分类器(discriminative classifier),直接判别
2.2.4 Independence and conditional independence 独立和条件独立
X, Y 是无条件独立 unconditional independent 或者 marginally independent ,用
现实中无条件独立很少见,条件独立更常见
此外,图模型中也有解释,见chapter 10
Theorem 2.2.1
X⊥Y|Z 当且仅当存在函数g,h 使得p(x,y|z)=g(x,z)h(y,z)
Conditional Independent 能让我们一点点建立大概率模型,朴素贝叶斯,马尔科夫模型,图模型中均有应用。
2.2.5 Continuous random variables 连续随机变量
连续随机变量X取值在区间
可得
由此定义函数
反之可以求积分,
2.2.6 Quantiles 分位数
对任意的
思考,为什么区间
2.2.7 Mean and variance 均值和方差
平均数(Mean)定义如下:
离散随机变量:
E(x)≜∑x∈Xx p(x) 连续随机变量:
E(x)≜∫x∈Xx p(x) dx
方差定义如下:
2.3 Some common discrete distributions 常见的离散分布
2.3.1 The binomial and Bernoulli distributions 二项分布和伯努利分布
考虑扔硬币问题,假如扔
上面的组合数称为二项系数(binomial coefficient),二项分布的期望为
假如只扔一次硬币,那么
所以,伯努利分布只是二项分布的一种特殊情况。
2.3.2 The multinomial and numtinoulli distributions 多项式分布和多努利分布
多项式分布可以对一个
令
这个分布有三种叫法:
1. categorical distributionor
2. discrete distribution
3. multinoulli distribution
当然也有专门的符号表示:
2.3.2.1 Application: DNA sequence motifs
这个例子没太看懂要做啥,不太重要吧?
2.3.3 The Poisson distribution 泊松分布
给定离散随机变量
第一项是归一化系数,为了保证整个分布的和为
2.3.4 The empirical distribution 经验分布
经验分布又叫经验测量(empirical measure),给定一组数据
广义上可以将每个样本关联一个权重,那么有:
然而翻了一下网上对经验分布的解释,一般表述为,把样本集中的所有样本按照从小到大的顺序排序,计算其积累分布,就得到了经验分布。
2.4 Some commom continuous distributions
下面提到的连续分布都是一维的概率分布(univariate(one-dimensional) continuous probability distributions)
2.4.1 Gaussian (normal) distribution 高斯分布
统计学和机器学习中最常用的应该就是高斯分布了,其概率密度函数(pdf)公式如下:
其中,参数
定义
高斯分布的积累分布函数(cdf)为概率密度函数(pdf)的积分:
可以用误差函数 error function (erf) 来计算,
其中
高斯分布之所以在统计学中应用如此之广泛,除了其两个参数很有解释(interpret)之外,而且很适合拿来给残差(residual error)或者说噪音(error)建模等诸多原因。
2.4.2 Degenerate pdf 退化的概率密度函数
限制
然而高斯分布一般会对异常值(outliers,离群值)很敏感,因为 log-probability 只是二次衰减。一个更鲁棒的分布是 Student t distribution,pdf 定义如下:
图 Figure 2.8 展示了异常值(outliers)对高斯分布影响很大,但是对
若取
2.4.3 The Laplace distribution 拉普拉斯分布
拉普拉斯分布有很重的尾巴(with heavy tails),又称作是 双边指数分布(double sided exponential distribution),pdf 如下:
2.4.4 The gamma distribution 伽马分布
伽马分布的变量为正实数,有两个参数来定义,
伽马分布的一些特殊情况:
1. Exponential distribution
2. Erlang distribution 和伽马分布相同,只是
3. Chi-squared distribution
若
2.4.5 The Beta distribution 贝塔分布
定义如下:
2.4.6 Pareto distribution 柏拉图分布
柏拉图分布侧重对数据长长的“尾巴”建模,pdf 如下:
2.5 Joint probability distributions 联合概率分布
前面讲的都是一元概率分布(univariate probability distributions),下面拓展到联合概率分布上(Joint probability distributions)。
向量
实际中,我们可以做随机变量之间的条件独立性来减少参数的个数。
对于连续分布,可以显示概率密度函数为确定的泛函的形式。
2.5.1 Covariance and correlation 协方差和相关性
两个随机变量
引申到
- 随机变量的协方差矩阵
Σ 是对称矩阵和半正定矩阵 - 作为实对称矩阵,其主要性质之一就是可以正交对角化,即存在正交矩阵U,使得
UTΣU=Λ - 作为半正定矩阵,我们可以对协方差矩阵进行Cholesky分解:半正定矩阵
Σ ,可以分解为Σ=UTΛU ,其中U 是上三角阵,Λ 是对角线元素都非负的对角矩阵。所以Σ=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]
这样一来,矩阵Σ=CTC ,其中C=Λ1/2U 。
因为协方差的取值在
若随机变量
所以相关系数这鬼东西就没啥用喽!
2.5.2 The multivariate Gaussian 多元高斯
多元高斯(Multivariate Gaussian, Multivariate Normal, MVN)是对连续变量最常用的联合概率密度函数。
2.5.3 Multivariate Student t distribution 多元 t 分布
公式太长了且不常用,略。
2.5.4 Dirichlet distribution 狄利克雷分布
贝塔分布(Beta distribution)的多元推广版本,称为狄利克雷分布,且分布符合概率单纯型的定义。(即该分布中的任意两点的运算,仍然落在该概率分布中,因此是凸集,且限定凸集的形状为单纯型)。
概率密度函数 pdf 为:
狄利克雷分布的一些性质如下:
2.6 Tranformations of random variables 随机变量的变换
即已知随机变量
2.6.1 Linear transformations 线性变换
假设
2.6.2 General transformations 一般的变换
若
若
求概率密度函数,可以通过求导数得到,带入上式的结果可得:
2.6.2.1 Multivariate change of variables *
上述问题的多元推广,这里先引入雅各比矩阵(Jacobian matrix)的概念,定义函数
上小节的结论推广如下:
2.6.3 Central limit theorem 中心极限定理
首先,中心极限定理很神奇。其次,上面讲的随机变量的变换,其实是为了这个定理做的铺垫。(Really? I doublt that.)问题描述如下,假设有一组的独立同分布(independent and identically distributed, iid)的样本数据,其均值和方差分别是
也可以在此基础上做归一化,有
这些就是中心极限定理的内容。中心极限定理在概率统计里非常重要,是概率论中的非正式首席定理,也是后续很多理论的基石。可以参考《正态分布的前世今生》这篇科普短文。
2.7 Monte Carlo approximation 蒙特卡洛近似
一般来说,用 the change of variables formula 来计算某随机变量函数的分布是很困难的,因此要采取求近似解的方法,如蒙特卡罗模拟。首先,我们从要求的分布中采样(比如用马尔可夫链蒙特卡洛方法,Markov chain Monte Carlo or MCMC),这
下面的结论也成立:
x¯=1S∑Ss=1xs→E[X] 1S∑Ss=1(xs−x¯)2→E[X] 1S#{xs≤c}=→P(X≤c) median{x1,...,xS}=median(X)
2.7.1 Example: change of variables, the MC way
已知均匀分布:
2.7.2 Example: estimating π by Monte Carlo integration
用蒙特卡洛积分来估计
故可得
2.7.3 Accuracy of Monte Carlo approximation
蒙特卡洛近似的准确率取决于样本的大小,因为误差是随着样本容量的增大而逐渐逼近高斯分布的。即
当然,实际的方差
要深刻理解蒙特卡洛的方法不简单,因为其方法要求的数学知识太多,可以参考《LDA数学八卦》这篇都科普短文,当然我们后面章节还会再次提到。
2.8 Information theory 信息理论
信息理论做的事,基本就是用紧凑的方式表示数据,或者叫数据压缩(data compression)或者信源编码(source coding),使得数据在传输的时候能保持很好的容错性。
2.8.1 Entropy 熵
随机变量
从熵的定义中很容易得到推论,令熵最大(为
我们可以通过伯努利分布的例子来探究一下熵的直观意义。已知
从插图 Figure 2.21 中可以看到熵最大最小的情况。
有时候,我们会把方差和熵拿来做一个比较,因为这两个量都可以衡量数据的分布情况,且看起来负相关。然而方差侧重的是数据的离散程度,和随机变量的取值有关;而熵则只关注数据的分布,和数据本身的取值无关,这点也表现在熵的定义上面。
2.8.1-2 cross-entropy 交叉熵
离散的信息熵有时候可以解释为编码数据集需要的比特数的期望值,如对于数据集
假如我们的得到了一个错误的分布
上面这种计算两个分布的熵的形式,就是交叉熵的概念,
2.8.2 KL divergence 离散度
KL散度,Kullback-Leibler divergence,或者叫相对熵(relative entropy),定义如下:
可以发现离散度就是交叉熵减去原来的熵,且总是非负的。
Theorem 2.8.1. (Information inequality)
KL(p||q)≥0 with equality iff p=q
信息不等式表示,当且仅当两个分布是相同的,相对熵才为零。不等式的正确性可以用琴生不等式证明。
2.8.3 Mutual information 互信息
考虑两个离散的随机变量
恒有
把互信息写成联合熵和条件熵的形式:
另外有衡量点对点之间的互信息(pointwise mutual information, PMI),定义为在两个事件中,
2.8.3.1 Mutual information for continuous random variables
略~
- MLaPP Chapter 2 Probability 概率论
- MLaPP Chapter 2 Probability 概率论
- MLaPP Chapter 1 Introduction
- MLaPP Chapter 1 Introduction
- Chapter 2 Statistics, Probability and Noise
- 概率论 --- Uva 11181 Probability|Given
- MLaPP Chapter 5 Bayesian statistics 贝叶斯统计
- MLaPP Chapter 7 Linear Regression 线性回归
- MLaPP Chapter 10 Bayes nets 贝叶斯网络
- 翻译:MLAPP(2.2节 概率论简要回顾)
- PRML Chapter 2. Probability Distributions
- PRML Chapter 2. Probability Distributions
- 1.2 Probability Theory 概率论(上)
- MLaPP Chapter 3: Generative models for distrete data
- MLaPP Chapter 4 Gaussian models 高斯模型
- MLaPP Chapter 6 Frequentist statistics 频率学派统计学
- MLaPP Chapter 8 Logistic Regression 逻辑斯特回归
- MLaPP Chapter 9 GLM and the exponential family 指数家族
- 进制
- Android设置EditText输入字数限制的两种方法!
- 二进制转十进制
- [torch]nn内部函数?
- std::function
- MLaPP Chapter 2 Probability 概率论
- 怎么使用筛选法求素数
- hdu 2007 平方和与立方和
- eclipse_tomcat操作技巧
- 计算机学习之路
- Android面试题(一)
- 23.标记与巨幕
- CSS左侧固定宽 右侧自适应(兼容所有浏览器)
- cocos-2dx开发项目中的热更新