Sigmoid function 的数学原理

来源：互联网发布：网络诈骗被骗几万编辑：程序博客网时间：2024/06/05 08:48

Sigmoid function详解

本文阅读对象为有一定machine learing基础，并且在模型的数学含义层面有意愿探索的同学。

什么是Sigmoid function

一提起Sigmoid function可能大家的第一反应就是Logistic Regression。我们把一个sample扔进sigmoid中，就可以输出一个probability，也就是是这个sample属于第一类或第二类的概率。

还有像神经网络也有用到sigmoid，不过在那里叫activation function。

Sigmoid function长下面这个样子：

σ (z) = 1 1 + e - z

其实这个function我们只知道怎么用它，但是不知道它是怎么来的，以及底层的含义是什么。我在ATA中搜了一下并没有人解释这个问题，知乎有人解答不过都是照着教材抄一抄捞几个赞，那么我详细的解释一下，争取不要让算法工程师沦为调参工程师…

首先假设我们有两个class：class1和class2，并且给出一个sample x，我们的目标是求x属于C1的概率是多少。

这个概率我们可以通过Naive Bayes很轻松的得出，也就是：
公式1：

P (C 1 | x) = P ( x | C 1 ) P ( C 1 ) P ( x )

其中
公式2：

P (x) = P (x | C 1) P (C 1) + P (x | C 2) P (C 2)

这个公式是高中难度的，不过也解释一下：x出现的概率等于，class1出现的概率乘以class1中出现x的概率加上 class2出现的概率乘以class2中出现x的概率。

那么就可以把公式2带入公式1的分母中：
公式3：

P (C 1 | x) = P ( x | C 1 ) P ( C 1 ) P ( x | C 1 ) P ( C 1 ) + P ( x | C 2 ) P ( C 2 )

下面我们将等式两边同时除以分子就变成了：
公式4：

P (C 1 | x) = 1 1 + P ( x | C 2 ) P ( C 2 ) P ( x | C 1 ) P ( C 1 )

设

z = ln P ( x | C 1 ) P ( C 1 ) P ( x | C 2 ) P ( C 2 )

那么把z带入公式4就变成了：

σ (z) = 1 1 + e - z

也就是Sigmoid function

这个z应该长什么样子？

我们将z变换一下可以变换成下面的样子：

z = ln P ( x | C 1 ) P ( x | C 2 ) + ln P ( C 1 ) P ( C 2 )

上式中

lnP(C1)P(C2)中的

P(C1)P(C2)是很好求的，设class1在训练集中出现的数目是

N1，class2在训练集中出现的数目是

N2，那么：

ln P ( C 1 ) P ( C 2 ) = ln N 1 N 1 + N 2 N 2 N 1 + N 2 = ln N 1 N 2

其中P(x|C1)和P(x|C2) 都遵从Guassian probability distribution：

P (x | C 1) = 1 2 π D / 2 1 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 e - 1 / 2 (x - μ 1) T Σ - 1 1 (x - μ 1)

P (x | C 2) = 1 2 π D / 2 1 ∣ ∣ Σ 2 ∣ ∣ 1 / 2 e - 1 / 2 (x - μ 2) T Σ - 1 2 (x - μ 2)

那么我们再回到这个公式中：

z = ln P ( x | C 1 ) P ( x | C 2 ) + ln P ( C 1 ) P ( C 2 )

第二项我们已经求出来了，下面我们把第一项Guassian probability distribution带入：

ln P ( x | C 1 ) P ( x | C 2 ) = ln 1 2 π D / 2 1 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 e - 1 / 2 ( x - μ 1 ) T Σ - 1 1 ( x - μ 1 ) 1 2 π D / 2 1 ∣ ∣ Σ 2 ∣ ∣ 1 / 2 e - 1 / 2 ( x - μ 2 ) T Σ - 1 2 ( x - μ 2 )

乍一看，我滴妈简直太复杂太恶心了 :)
但是别慌，很多东西都能消掉的，我们来消一下。
首先，上面分子分母中P(x|C1)P(x|C2)可以消掉，就变成了：

ln P ( x | C 1 ) P ( x | C 2 ) = ln 1 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 e - 1 / 2 ( x - μ 1 ) T Σ - 1 1 ( x - μ 1 ) 1 ∣ ∣ Σ 2 ∣ ∣ 1 / 2 e - 1 / 2 ( x - μ 2 ) T Σ - 1 2 ( x - μ 2 )

接着拆：

ln P ( x | C 1 ) P ( x | C 2 ) = ln ∣ ∣ Σ 2 ∣ ∣ 1 / 2 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 e [(x - μ 1) T (Σ 1) - 1 (x - μ 1) - (x - μ 2) T (Σ 2) - 1 (x - μ 2)]

再拆：

ln P ( x | C 1 ) P ( x | C 2 ) = ln ∣ ∣ Σ 2 ∣ ∣ 1 / 2 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 - 1 2 [(x - μ 1) T (Σ 1) - 1 (x - μ 1) - (x - μ 2) T (Σ 2) - 1 (x - μ 2)]

上式中第二项12[(x−μ1)T(Σ1)−1(x−μ1)−(x−μ2)T(Σ2)−1(x−μ2)]，中括号里面有两项，我再把这两项里面的括号全都打开，打开的目的是为了后面的化简，首先先看第一项：

(x - μ 1) T (Σ 1) - 1 (x - μ 1) - (x - μ 2) T (Σ 2) - 1 (x - μ 2) = x T Σ - 1 1 x - x T Σ - 1 1 μ 1 - μ T 1 Σ - 1 1 x + μ T 1 Σ - 1 μ 1

= x T Σ - 1 1 x - 2 μ T 1 Σ - 1 1 x + μ T 1 Σ - 1 1 μ 1

第二项化简方法一样，把下角标换成2就行了：

(x - μ 2) T (Σ 2) - 1 (x - μ 2) = x T Σ - 1 2 x - 2 μ T 2 Σ - 1 2 x + μ T 2 Σ - 1 2 μ 2

拆的差不多了，下面我们回到z=lnP(x|C1)P(x|C2)+lnP(C1)P(C2)中，把刚才的化简结果带进去：

z = ln ∣ ∣ Σ 2 ∣ ∣ 1 / 2 ∣ ∣ Σ 1 ∣ ∣ 1 / 2 - 1 2 [x T Σ - 1 1 x - 2 μ T 1 Σ - 1 1 x + μ T 1 Σ - 1 1 μ 1 - x T Σ - 1 2 x + 2 μ T 2 Σ - 1 2 x - μ T 2 Σ - 1 2 μ 2] + ln N 1 N 2

仔细观察不难发现，上式中中括号里面第一项和第四项是可以消掉的。
并且我们可以认为Σ1=Σ2=Σ，刚才我一直没解释μ和Σ是什么，下面我简单说一下，μ就是mean（均值），Σ就是covairance（协方差），其中μ是个vectorΣ是个matrix，具体什么形式不在本文里详细解释，一解释就没完没了了，可以深推一下Guassian看看paper（个人感觉意义不大，其实理解到这里完全够用了）。

好了，为什么可以认为Σ1=Σ2=Σ呢？因为如果每个class都有自己的covariance的话，那么variance会很大，参数的量一下就上去了，参数一多，就容易overfitting。这么说的话，z里面的第一项ln∣∣Σ2∣∣1/2∣∣Σ1∣∣1/2就是0了。

好开心，又有好多东西被约掉了 :)

最后，z被化简成了下面这种最终形态：

z = (μ 1 - μ 2) Σ - 1 x - 1 2 μ T 1 Σ - 1 μ 1 + 1 2 μ T 2 Σ - 1 μ 2 + ln N 1 N 2

可以观察到，第一项有系数x，后面几项里其实都是参数。
我们就可以理解为x的系数其实就是sigmoid中的参数wT（这是个matrix），后面那些项可以看成是参数b。

那么在Generative model中我们的目标是寻找最佳的N1,N2,μ1,μ2,Σ使P(C1|x)maximise。

但是我们已经将一连串复杂的参数和方程化简成了z=σ(wTx+b)那为什么还要舍近求远的求5个参数去将目标最优化呢？只有“两个参数”的方法我们叫做Discraminative model。

实际上，在大多数情况下，这两种方法各有利弊，但是实际上Discraminative model泛化能力比Generative model还是强不少的。什么时候Generative model更好呢？
1.training data比较少的时候，需要靠几率模型脑补没有发生或的事情。
2.training data中有noise。

讲解完毕，本文每个公式都是用latex搞出来的，已校对，欢迎找茬修正。

阅读全文

0 0

Sigmoid function 的数学原理

Sigmoid function详解

什么是Sigmoid function

更多思考

这个z应该长什么样子？