机器学习——线性模型之softmax回归

来源:互联网 发布:maishiranui.unity3d 编辑:程序博客网 时间:2024/05/17 22:11

一、简介

1、 softmax回归模型是logistic回归模型在多分类问题上的推广,即类标签可取两个以上的值。

2、 假设(预测)函数


3、 每一个样本估计其所属类别的概率: p(y^{(i)}=j|x^{(i)};θ)=e^{θ_j^T x^{(i)}} / ∑_{l=1}^k {e^{θ_l^T x^{(i)}} }

二、代价函数及其求解

1、 指示函数


2、 Softmax回归的代价函数(可参考LR的代价函数)

J(θ)=-1/m \{ ∑_{i=1}^m∑_{j=1}^k [I(y^{(i)}=j) \ log \ (e^{θ_j^T x^{(i)} } / ∑_{l=1}^k e^{θ_l^T x^{(i)} } )]\}

3、 使用梯度下降法进行求解

    a) 对代价函数进行求梯度,得 ∇_(θ_j ) J(θ)=-1/m ∑_{i=1}^m x^{(i)} [I(y^{(i)}=j)-p(y^{(i)}=j|x^{(i)};θ)]

    b) 更新公式 θ_j≔θ_j-α∇_{θ_j} J(θ)

三、Softmax回归特点

1、 softmax回归中存在参数冗余的问题,冗余参数对预测结果没有任何影响,即存在多组最优解(过度参数化)

p(y^{(i)}=j|x^{(i)};θ)=e^{(θ_j^T-φ) x^{(i)}} / ∑_{l=1}^k {e^{(θ_l^T-φ) x^{(i)}} }=e^{θ_j^T x^{(i)}}e^{φ x^{(i)}} / ∑_{l=1}^k {e^{θ_l^T x^{(i)}} e^{φ x^{(i)}}}=e^{θ_j^T x^{(i)}} / ∑_{l=1}^k {e^{θ_l^T x^{(i)}} }

2、 J(θ) 依然是凸函数,梯度下降是不会遇到局部最优,但是Hessian矩阵时非奇异的,牛顿法优化遇数值计算问题

3、 当类别k=2时,softmax回归退化为logistic回归


4、 解决k分类问题:类别间互斥,可采用softmax回归;否则可采用k个独立的二元分类器