生成算法

来源:互联网 发布:淘宝加盟诈骗罪 编辑:程序博客网 时间:2024/05/17 05:01

思路:

  • 之前的线性回归都是根据特征值服从的分布猜想结果,生成算法是根据结果猜想特征值的分布。
  • 贝叶斯公式:

    这里写图片描述

GDA高斯分类器:

模型:

  1. 这里写图片描述

  2. 写成表达式的形式:

    这里写图片描述

  3. 分离效果图:

    这里写图片描述

推理:

  1. 原理:根据上述表达式的形式和最大似然原理,我们要求出这两个高斯分布,使给出的case最大限度的符合。

  2. 写成表达式的形式:

    这里写图片描述

    原因:为什么要求p(y|x)的最大似然:

    • 因为我们是要求给出X后预测Y,因此我们要求给出x下y的最可能出现的情况下的θ

    • 根据贝叶斯公式:

      这里写图片描述

GDA and Logistic 回归:

  • 如果p(x|y;θ) 服从高斯分布,可以推出:p(y=1|x;θ)服从Logistic 回归。即:

    这里写图片描述

  • 反之不一定成立。

朴素贝叶斯分类:

应用:

  • 主要用于文本分类

模型1:

  1. 只考虑单词在词典中出不出现,没有考虑一个单词出现的频率。

  2. 将文本分词处理,得到特征值向量(整个词汇表):
    0表示该次在这个case中没出现,1表示出现

    这里写图片描述

  3. 那么该case出现的概率:

    这里写图片描述

  4. 模型中的参数:

    • 对于第i个特征值,有它在y=1时出现的概率,y=0时出现的概率
    • 还有y=1 出现的概率

    所以:

    • ϕi|y=1=p(xi=1|y=1)
    • ϕi|y=0=p(xi=1|y=0)
    • ϕy=p(y=1)
  5. joint(联合)最大似然估计:

    这里写图片描述

    解:

    这里写图片描述

    就是样本出现的频率。如 ϕy=p(y=1) ,就是y=1占样本空间的比例

  6. 根据参数我们可以写出预测:

    这里写图片描述

Laplace smoothing

  1. 当一个单词从未出现的时候,进行预测的时候参数可能为0

    即:

    这里写图片描述

  2. 解决方法:

    这里写图片描述

    这里写图片描述

模型2

  1. 考虑单词出现的频率
  2. 条件:

    • 词典V,长度记为:|V|
    • 样本X = {x1,x2,.....xni} , 每个样本的长度可以不一样,为ni
      其中:xi = k, 表示该特征值为字典中的第k个单词
    • 结果y任然为0,1
  3. 联合最大似然函数:

    • 表示:
      这里写图片描述

    • 求解:

      这里写图片描述

      分子含义:第k个单词在y=1中出现的次数
      分母含义:y=1的样本的总长度(每个样本的长度可以不一样)

    • 应用Laplace smoothing:

      这里写图片描述

1 0
原创粉丝点击