机器学习(二)——广义线性模型、生成学习算法
来源:互联网 发布:免费淘宝推广软件 编辑:程序博客网 时间:2024/06/05 05:39
http://antkillerfarm.github.io/
逻辑回归(续)
注:Ronald Aylmer Fisher,1890~1962,英国人,毕业于剑桥大学。英国皇家学会会员。尽管他被称作“一位几乎独自建立现代统计科学的天才”,然而他的本职工作是遗传学。他最大的贡献是利用统计分析的方法,揭示了孟德尔的遗传定律在达尔文自然选择学说中的作用,为后来遗传物质DNA的发现奠定了理论基础。
虽然对于Fisher来说,数理统计只是他研究工作的一个副产品,但他在1925年所著《研究工作者的统计方法》(Statistical Methods for Research Workers),其影响力超过了半个世纪,几乎当代所有自然科学和社会科学领域都在应用他所创立的理论。F分布就是以他的名字命名的。Karl Pearson,1857~1936,英国人,毕业于剑桥大学。英国皇家学会会员。发现了
χ2 分布。William Sealy Gosset,1876~1937,英国人,毕业于牛津大学。笔名Student,发现了Student’s t-distribution。
这三人被后人合称现代统计学的三大创始人。他们都不是博士,毕业后从事的职业,也不是数学。Fisher和Pearson研究遗传学,Gosset研究化学。可见,统计学的诞生,有着很强的应用属性。
我们假设:
则该伯努利分布(Bernoulli distribution)的概率密度函数为:
其似然估计函数为:
两边都取对数,得到对数化的似然估计函数:
按照随机梯度下降法,计算迭代公式:
可以看出,这和线性回归的迭代公式(公式4)完全相同。
这时又被叫做感知器学习(perceptron learning)算法。
指数类分布
线性回归和对数回归的迭代公式相同不是偶然的,它们都是指数类分布的特例。
指数类分布(exponential family distributions)的标准形式如下:
其中,
伯努利分布到指数类分布的变换过程如下:
可见:
高斯分布到指数类分布的变换过程如下:
可见:
除此之外,Dirichlet分布、Poisson分布、多项分布、
广义线性模型
广义线性模型(Generalized Linear Model,GLM)是解决指数类分布的回归问题的通用模型。它基于以下三个假设:
下面以多项分布为例展示一下GLM的处理方法。
这里将
定义
我们使用
定义函数
可见,
由公式4、5可得:
这种从
最大似然估计对数函数:
机器学习的优化问题
优化理论和算法是机器学习用于处理问题的重要工具,但是机器学习有自己独特的看待问题的视角,并且其中也有很多和 Optimization 并不直接相关的部分,反过来Machine Learning也对Optimization产生影响。
例如,Interior Point Method的发明被认为是Optimization中的重要里程碑,这一类的方法能够保证在多项式次迭代内收敛。但是在机器学习中,特别是现在的所谓“大数据”的趋势下,这类算法却没法工作,一方面由于机器学习中所处理的数据通常维度非常高,从而相应的优化问题的变量个数变得很巨大,传统的方法虽然保证多项式迭代收敛,但是其中每一步迭代的计算代价却是随着变量个数的平方甚至三次方增长,结果是连算法的一次迭代都无法在可接受的时间内完成。于是(机器学习方面的)人们逐渐将注意力集中到主要基于first-order oracle的单次迭代计算量非常小的算法上。另一方面,数据点的个数的爆炸性增长也使得stochastic类的算法受到更多的关注——同样是降低单次迭代的计算复杂度。
生成学习算法
比如说,要确定一只羊是山羊还是绵羊。从历史数据中学习到模型,然后通过提取这只羊的特征,来预测出这只羊是山羊还是绵羊。这种方法叫做判别学习算法(DLA,Discriminative Learning Algorithm)。其形式化的写法是:
换一种思路,我们可以根据山羊的特征首先学习出一个山羊模型,然后根据绵羊的特征学习出一个绵羊模型。然后从这只羊中提取特征,放到山羊模型中看概率是多少,再放到绵羊模型中看概率是多少,哪个大就是哪个。这种方法叫做生成学习算法(GLA,Generative Learning Algorithms)。其形式化的写法是:建立模型——
由贝叶斯(Bayes)公式可知:
其中,
注:Thomas Bayes,1701~1761,英国统计学家。
由于我们关注的是y的离散值结果中哪个概率大(比如山羊概率和绵羊概率哪个大),而并不是关心具体的概率,因此公式6可改写为:
高斯分布的向量形式
高斯分布的向量形式
其中,
矩阵行列式计算
对于高阶矩阵行列式,一般采用莱布尼茨公式(Leibniz Formula)或拉普拉斯公式(Laplace Formula)计算。
首先,定义排列A的反序向量V(Inversion Vector)。下面举一个包含6个元素的例子:
序列 | 4 1 5 2 6 3
反序向量 | 0 1 0 2 0 3
反序向量的模被称为总序数(Total Order),例如上面例子的总序数为
总序数为奇数的排列被称为奇排列(Odd Permutations),为偶数的排列被称为偶排列(Even Permutations)。
定义勒维奇维塔符号(Levi-Civita symbol)如下:
注:Tullio Levi-Civita,1873~1941,意大利数学家。他在张量微积分领域的贡献,帮助了相对论的确立。
莱布尼茨公式:
高斯判别分析
高斯判别分析(GDA,Gaussian Discriminant Analysis)模型需要满足以下条件:
注:这里只讨论y有两种分类的情况,且假设两种分类的
Σ 相同。
相应的概率密度函数为:
- 机器学习(二)——广义线性模型、生成学习算法
- 机器学习-广义线性模型
- 斯坦福大学机器学习——广义线性模型
- 机器学习笔记—指数分布簇和广义线性模型
- 机器学习笔记—再谈广义线性模型
- 监督学习之广义线性模型——Andrew Ng机器学习笔记(三)
- Andrew Ng机器学习笔记(四)——GLM广义线性模型
- 机器学习数学原理(2)——广义线性模型
- 机器学习-广义线性模型GLM
- 机器学习(二)广义线性模型:逻辑回归与Softmax分类
- 机器学习【2】(六)广义线性模型
- 机器学习笔记五:广义线性模型(GLM)
- 从GLM广义线性模型到线性回归、二项式及多项式分类——机器学习笔记整理(一)
- 线性回归、logistic回归、广义线性模型——斯坦福CS229机器学习个人总结(一)
- 吴恩达机器学习笔记——指数分布族&广义线性模型&逻辑回归概率模型推导
- 机器学习笔记5——线性模型(二)
- 【机器学习-斯坦福】学习笔记4 ——牛顿方法;指数分布族; 广义线性模型(GLM)
- 机器学习3——牛顿方法、指数族、广义线性模型
- 预定义着色器预处理宏
- 数据结构与算法分析——Java语言描述
- AIDL简单使用
- CTF-PWN练习之执行Shellcode
- QtCreator开发板远程调试
- 机器学习(二)——广义线性模型、生成学习算法
- jquery怎么选取全部非disabled的input
- Linuxshell压缩打包命令
- js实现栈
- hdoj2100-Lovekey(26进制的加法)
- velocity的使用简介
- Android Training - 避免程序无响应ANR
- URI与URL的区别
- Android 网络请求框架之Rxjava+Retrofit