机器学习:贝叶斯总结_1:概述

来源:互联网 发布:python os.exit 编辑:程序博客网 时间:2024/06/06 04:48

1.1 多项式的拟合

这里写图片描述

  • w的线性函数; —— 线性模型
    y(x,w)=w0+w1x+w2x2+...+wMxM=Mj=0wjxj

  • 拟合数据,最小化误差函数

E(w)=12Nn=1{y(xn,w)tn}2

  • 过拟合:泛华性和过拟合
    1. 数据集=训练集+测试集
    2. ERMS=2E(w)/N; 均方根误差; w是误差最小解
    3. 测试集数据:衡量了对于新观察到的数据x,我们的预测值的效果的好坏

这里写图片描述

  • 有着更大的M值的多项式被过分的调参
  • 数据点不应该小于需要调节的参数的若干倍(5~10倍)
  • 数据多时,过拟合现象减少

结论:
1. 根据训练集的规模限制参数的数量

正则化

  • 给误差函数一个惩罚项,使得系数不会达到很大的值

    E(W)^=12Nn=1{y(xn,w)tn}2+λ2||w||2

  • λ
  • 最小化误差的方法,需要确定模型的复杂度
  • 数据集合分为:训练和测试集合,测试集合最优化模型的复杂度
  • 缺点:浪费数据

概率论

频率学派

  • 概率
  • 贝叶斯定理
  • 概率密度
  • 期望和协方差

贝叶斯概率

  • 通过观察的数据,将先验概率转换为后验概率
  • p(w|D)=p(D|w)p(w)p(D)

p(w|D) 是后验概率

p(D|w)=p(D|w)p(w)dw
是似然函数,在不同w下,观测数据D的可能性大小

似然函数的两种观点:

  • 频率学派:
    1. w是使得似然函数p(D|w)达到最大值的w
    2. 对应选择使观测到的数据集出现概率的最大w的值
    3. 似然函数的负对数,称为误差函数(最小化误差函数)
  • 贝叶斯:
    1. 只有一个数据集D,参数的不确定性通过w的概率分布来表达
    2. 频率学派,w视为固定参数。

高斯分布

曲线拟合-概率角度

  • 原问题描述: 从N个输入x=(x1,......,xN)T 组成的数据集和他们对应的目标值 t=(t1,...,tN)T, 在给定输入的情况下,对目标变量 t 进行预测。
  • 概率描述不确定性
  • 给定x值,对应的t值服从高斯分布

p(t|x,w,β)=N(t|y(x,w,β1))
其中:y(x,w)=w0+w1x1+......+wMxMβ1=σ2

  • 结论:
    高斯噪声下,最大似然函数等价于最小化平方和误差函数

曲线拟合-贝叶斯

  • MAP:最大后验;给定数据集合,通过寻找最可能的w
  • 设先验概率p(w|α)=N(w|0,α1I)

结论:
最小化MAP等价于最小化正则化的平方和函数

模型的选择

  • 最大似然,容易过拟合;需要验证集合,选择较好的参数
  • 交叉验证
  • 留一法

维度灾难

0 0
原创粉丝点击