机器学习-生成学习算法
来源:互联网 发布:centos arm版 编辑:程序博客网 时间:2024/06/05 19:32
情景:
区别动物,根据动物的特性,大象输出1,狗输出0;
1.判别型算法(discriminative learning)
- 直接学习p(y|x)
- 直接学习
hθ(x) - logistic是判别型算法的一个例子
- 整个过程中其实就是寻找一个最佳的“直线”
- Andrew Ng:
Given a training set, an algorithm like logistic regression or the perceptron algorithm (basically) tries to find a straight line-that is, a decision boundary-that separates the elephants and dogs.
- 有了“分界线”,就可以判别一个新动物的种类了
2.生成学习算法(generative learning algorithms)
- 一种新的方法,考虑大象的时候,构建一个大象的模型;考虑狗的时候,构建一个狗的模型。
- 在判别一个新的动物的类型时,即可以与大象模型做匹配,也可以与狗模型做匹配,看哪一种匹配度高一些
- 由此得到,p(x | y=0)是狗特性的分布;p( x | y=1 )是大象特性的分布
- p(x)=p(x|y=1)p(y=1)+p(x|y=0)p(y=0)
1.Gaussian discriminant analysis(GDA)
1.高斯分布
- 随着
∑ 的变化,图形的相应变化 I=[1001]
- 中间的—compressed
- 右面的—spread-out
- increase off-diagonal entry in
∑ - 增加斜对角的数
the density becomes more “compressed” towards the
45。 line斜对角的负增长,图形向135度的方向压缩
- 通过改变μ,来改变图形所在的位置
2.模型
- 解决情景
- 输入是一个连续的随机值,输出是离散值(0,1),即解决的是一个分类问题
- 解决方式—GDA
模型表达:
- 采用了极大似然估计
3.GDA和logistic regression的关系
- 棕色曲线为p(y=1|x)
- 虽然与logistic中得到的sigmoid函数一样的曲线,但是存在本质的区别,GDA得到的曲线无论是位置还是陡峭程度都与sigmoid不同
4.讨论
注意箭头的指向,反向命题不成立;
1. x|y~Gaussian→p(y=1|x)服从logistic回归
2. x|y~Poisson(
…
2.朴素贝叶斯算法
- Naive Bayes
- 最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)
- GDA讨论的是连续值x的数学模型
- NB讨论的是离散x的数学模型
医生对病人进行诊断就是一个典型的分类过程,任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。
1.思想基础
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
通俗解释:在街上看到一个黑人,猜测他是从哪来的,十有八九猜非洲。为什么呢?因为黑人中非洲人的比例最高,当然黑人也有可能是美洲人,在没有其它有用信息下,我们会选择条件概率最大的类别。
2.正式定义
x={a1,a2,...am} 是一个m维空间样本,同时每一个am 有着取值空间,有些取值空间相同,譬如文本分类任务,每一个维度是词表中的词,取值空间为{0,1},即表示新样本是否包含这个词。- 贝叶斯公式
P(C|x)=P(C,x)P(x)=P(X|C)∗P(C)P(x) - 计算步骤3条件概率的方法
文本分类是经典的NLP问题,就是把一个文本自动分到若干个类别之一当中,每一个特征词就是空间中的一个维度。
- 例子—垃圾邮件分类(spam classification)—文本分类的一个例子
- y=1 means Spam email
- Firtstly
假设
X′is 有条件独立给定的y根据概率论的链式法则,第一步公式是成立的。
- 机器学习-生成学习算法
- 机器学习-生成学习算法
- 机器学习--生成学习算法
- 机器学习--生成学习算法之GDA
- 机器学习之二 生成学习算法
- 机器学习算法的随机数据生成
- 【机器学习-斯坦福】学习笔记5 - 生成学习算法
- 【机器学习-斯坦福】学习笔记5 - 生成学习算法
- 【机器学习-斯坦福】学习笔记5 - 生成学习算法
- 公开课机器学习笔记(8)生成学习算法
- 【斯坦福---机器学习】复习笔记之生成学习算法
- 机器学习笔记4——生成学习算法
- 斯坦福 机器学习-第二章 生成学习算法
- Python与机器学习之模型结构(生成学习算法)
- 机器学习算法-决策树生成算法ID3和C4.5
- 机器学习算法排名
- 《机器学习》 KNN算法
- 机器学习中的算法
- Java IO 之 InputStream源码
- Gradle sync failed: peer not authenticated
- vs2013编译g3dlite时出现 min不是std的成员 mangos
- 欢迎使用CSDN-markdown编辑器
- Java-数组转List-判断一个数是否存在数组/List中
- 机器学习-生成学习算法
- Android基础入门教程——2.5.1 Toast(吐司)的基本使用
- Javascript 学习 -- arguments
- C语言实现变长数组
- Android小项目之编写精美的聊天界面
- 补间动画和属性动画
- 数据结构和算法
- HDU 4548 美素数(西山居挑战赛)
- uml视频之uml概述一