机器学习——线性模型之softmax回归

来源：互联网发布：maishiranui.unity3d 编辑：程序博客网时间：2024/05/17 22:11

一、简介

1、 softmax回归模型是logistic回归模型在多分类问题上的推广，即类标签可取两个以上的值。

2、假设（预测）函数

3、每一个样本估计其所属类别的概率： $p(y^{(i)}=j|x^{(i)};θ)=e^{θ_j^T x^{(i)}} / ∑_{l=1}^k {e^{θ_l^T x^{(i)}} }$

二、代价函数及其求解

1、指示函数

2、 Softmax回归的代价函数（可参考LR的代价函数）

$J(θ)=-1/m \{ ∑_{i=1}^m∑_{j=1}^k [I(y^{(i)}=j) \ log \ (e^{θ_j^T x^{(i)} } / ∑_{l=1}^k e^{θ_l^T x^{(i)} } )]\}$

3、使用梯度下降法进行求解

a) 对代价函数进行求梯度，得 $∇_(θ_j ) J(θ)=-1/m ∑_{i=1}^m x^{(i)} [I(y^{(i)}=j)-p(y^{(i)}=j|x^{(i)};θ)]$

b) 更新公式 $θ_j≔θ_j-α∇_{θ_j} J(θ)$

三、Softmax回归特点

1、 softmax回归中存在参数冗余的问题，冗余参数对预测结果没有任何影响，即存在多组最优解（过度参数化）

$p(y^{(i)}=j|x^{(i)};θ)=e^{(θ_j^T-φ) x^{(i)}} / ∑_{l=1}^k {e^{(θ_l^T-φ) x^{(i)}} }=e^{θ_j^T x^{(i)}}e^{φ x^{(i)}} / ∑_{l=1}^k {e^{θ_l^T x^{(i)}} e^{φ x^{(i)}}}=e^{θ_j^T x^{(i)}} / ∑_{l=1}^k {e^{θ_l^T x^{(i)}} }$

2、 $J(θ)$ 依然是凸函数，梯度下降是不会遇到局部最优，但是Hessian矩阵时非奇异的，牛顿法优化遇数值计算问题

3、当类别k=2时，softmax回归退化为logistic回归

4、解决k分类问题：类别间互斥，可采用softmax回归；否则可采用k个独立的二元分类器

阅读全文

0 0