生成算法
来源:互联网 发布:淘宝加盟诈骗罪 编辑:程序博客网 时间:2024/05/17 05:01
思路:
- 之前的线性回归都是根据特征值服从的分布猜想结果,生成算法是根据结果猜想特征值的分布。
贝叶斯公式:
GDA高斯分类器:
模型:
写成表达式的形式:
分离效果图:
推理:
原理:根据上述表达式的形式和最大似然原理,我们要求出这两个高斯分布,使给出的case最大限度的符合。
写成表达式的形式:
原因:为什么要求
p(y|x) 的最大似然:因为我们是要求给出
X 后预测Y ,因此我们要求给出x下y的最可能出现的情况下的θ 。根据贝叶斯公式:
GDA and Logistic 回归:
如果
p(x|y;θ) 服从高斯分布,可以推出:p(y=1|x;θ) 服从Logistic 回归。即:反之不一定成立。
朴素贝叶斯分类:
应用:
- 主要用于文本分类
模型1:
只考虑单词在词典中出不出现,没有考虑一个单词出现的频率。
将文本分词处理,得到特征值向量(整个词汇表):
0表示该次在这个case中没出现,1表示出现那么该case出现的概率:
模型中的参数:
- 对于第
i 个特征值,有它在y=1 时出现的概率,y=0 时出现的概率 - 还有
y=1 出现的概率
所以:
ϕi|y=1=p(xi=1|y=1) ϕi|y=0=p(xi=1|y=0) ϕy=p(y=1)
- 对于第
joint(联合)最大似然估计:
解:
就是样本出现的频率。如
ϕy=p(y=1) ,就是y=1 占样本空间的比例根据参数我们可以写出预测:
Laplace smoothing
当一个单词从未出现的时候,进行预测的时候参数可能为0
即:
解决方法:
模型2
- 考虑单词出现的频率
条件:
- 词典V,长度记为:
|V| - 样本
X = {x1,x2,.....xni } , 每个样本的长度可以不一样,为ni 。
其中:xi =k , 表示该特征值为字典中的第k 个单词 - 结果
y 任然为0,1
- 词典V,长度记为:
联合最大似然函数:
表示:
求解:
分子含义:第
k 个单词在y=1 中出现的次数
分母含义:y=1 的样本的总长度(每个样本的长度可以不一样)应用Laplace smoothing:
1 0
- 生成算法
- Guid生成算法及其HashCode生成算法
- 圆生成算法---正负算法生成圆
- 直线生成算法---Bresenham算法
- 生成算法与判别算法
- 图形算法:圆形生成算法
- 生成算法和判别算法
- 生成排列算法
- 圆的生成算法
- 一个迷宫生成算法
- 直线生成算法
- 排列生成算法
- 光栅直线生成算法
- 格雷码生成算法
- 正负算法生成圆
- 子集生成算法
- Bezier曲线生成算法
- c# 万年历生成算法
- Android4.0以上版本OptionsMenu无法显示图标的问题
- portal是什么?
- PHP版本特性笔记
- ZOJ1709
- 【iOS开发之Objective-C】面向对象编程--间接
- 生成算法
- 剑指offer 45-约瑟夫环
- iOS mac 终端 常用命令
- 对于node.js开发指南中博客案例的修改实现(二)--代码
- ucore操作系统lab4实验报告(理论部分)
- 配置匿名用户
- Difference Between Primes(素数打表,素数表与数表通用)
- 物联网系统的搭建(二)
- Java Socket应用(五)——编程实现基于 TCP 的 Socket 通信