Logistic Regression

来源：互联网发布：java reflection 实例编辑：程序博客网时间：2024/04/30 19:08

Logistics regression

估计的对象
估计的想法
估计的理论
估计的求解

估计的对象

机器学习分为监督学习和非监督学习，监督学习下又分为regression和classification，logistic回归属于classification，判别样本属于哪一类的概率为多少。

估计的想法

在做回归时，总是对模型进行一定的假定，比如线性回归模型，假定模型是线性的，这些假定往往在实际中难以满足判别效果，并且直接判别样本属于哪一类过于绝对，所以如果能给出样本属于各个类别的概率，并直接对概率进行建模，就能改善以上判别所提的缺点。Logistic回归就是针对概率进行建模。它的想法来源于odds（几率），即某事物发生的可能性与不发生的可能性的比值，这是对于二分类来讲；对于多分类问题，只需要知道其余类别发生的可能性与固定一种类别发生的可能性之比，并对该概率进行假定，就能知道所有类别发生的概率。在二分类时，对概率进行假定时，概率函数为Logistic function，又名Sigmoid function；多分类时使用了logit变换。

估计的理论

对概率进行建模，假定为线性方程：

logPr(G=1|X=x))Pr(G=K|X=x)=β10+βT1x

logPr(G=2|X=x))Pr(G=K|X=x)=β20+βT2x

⋮

logPr(G=K−1|X=x))Pr(G=K|X=x)=β(K−1)0+βTK−1x

则有K-1个log-odds or logit transformations
由计算可得模型：

Pr(G=k|X=x)=exp(βk0+βTkx)1+∑K−1l=1exp(βl0+βTlx))),k=1,⋯,K−1,

Pr(G=K|X=x)=11+∑K−1l=1exp(βl0+βTlx)))

估计的求解

一般用极大似然估计进行求解。对N个观测值，多分类时，似然函数为：
L(θ)=∏Ni=1pgi(xi;θ))
pk(xi;θ))=Pr(G=k|X=xi;θ)
下面值考虑二分类时情况，似然函数为：
L(θ)=∏Ni=1p(xi;β)yi(1−p(xi;β))1−yi

0 0