softmax回归模型

来源:互联网 发布:dota2网络连接超时 编辑:程序博客网 时间:2024/06/08 06:10

softmax回归模型

机器学习的一些回归模型需要根据预测的值的分布进行构建,因此,首先介绍一些常用的概率分布。

0-1分布(也称伯努利分布):

伯努利分布是结果只能出现0或者1的分布,成功的概率P(x=1)=p,P(x=0)=1-p。对于结果只存在两种的问题,因此可以根据伯努利分布使用广义线性模型进行分析,得到的预测函数h(x;θ)=(1+exp(-1*θ^t+x))^-1,因此根据广义线性模型得到的结果只存在于{0,1}的模型就是逻辑回归。

二项分布:

二项分布就是重复n次独立的伯努利实验。

多项式分布:

多项式分布是二项式分布的推广,把两种可能结果改为了k种。   

高斯分布:

 

指数分布族:

概率可以写成如下形式的分布都属于指数分布族:

注意:

一般概率的概率形式都是p(y=yi|xi;θ)的形式,但是可以简写成p(yi|xi;θ),它代表的就是一个值。注意,概率代表的就是一个值,一些p(y|x;θ)相当于是概率函数,因为这里y不具有特定的值,但是把相应的y带进去能得到一个概率,比如说伯努利分布的概率密度p^x*q^(1-x),这里写的x就相当于y.

softmax回归模型:

首先定义k个概率值分别Φ1,Φ2,...,Φk,但是因为它们的和为1,所以记Φk=1-(Φ1+...+Φk-1),并且定义如下内容:并且引入一个函数1{.},存在1{true}=1,1{False}=0,因此存在实际上T(y)就是一个指示向量,每一位上等于1的概率就等于Φ1,Φ2,...,Φk-1,T是一个k-1维的向量。根据上面的多项式分布密度函数可以知道,如果n=1的话,P=p^xi where xi =1.所以根据结论,可以得出多项式分布依旧属于指数分布族。对应的成分如下:可以得到一个从η到Φ的映射:令ηi=θi^t*x.最终的预测函数就是:另外,很多模型使用的是梯度下降的方法进行参数的优化。一般存在最小代价函数以及最大似然性两种方法进行参数的优化。实际上,很多代价函数实际上都是通过最大似然估计得到的。比如说最小二乘法实际上就是估计结果的概率分布,使用最大似然估计的方法求得的。 比如说,逻辑回归的对数似然结果等于而逻辑回归的代价函数是:实际上就是前面加上了-1/m,因此对于同一个问题,对代价函数使用梯度下降二队似然估计使用梯度上升,但是两者结果是一样的。在http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92对于sogfemax进行了讲解,但是这里是直接给出代价函数J进行讲解,而这里的J如下:实际上就是似然估计的变形。由上面我们知道了多项式分布的概率密度,因此logL=l(θ)左边加上-1/m得到的结果就是上面的损失函数。     

查看原文:http://www.hahaszj.top/%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0/softmax%e5%9b%9e%e5%bd%92%e6%a8%a1%e5%9e%8b/238
原创粉丝点击