softmax regression 推导

来源：互联网发布：淘宝卷皮折扣网编辑：程序博客网时间：2024/05/30 02:25

P (y (i) = k | x (i); θ) = exp ( θ ( k ) ⊤ x ( i ) ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) )

似然函数

L = \prod i = 1 M \prod k = 1 K P (y (i) = k | x (i); θ) 1 {y (i) = k}

对数损失函数为:

J (θ) = - ⎡ ⎣ \sum i = 1 m \sum k = 1 K 1 {y (i) = k} log exp ( θ ( k ) ⊤ x ( i ) ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) ⎤ ⎦

1{⋅} is the ”‘indicator function,”’ so that 1{a true statement}=1, and 1{a false statement}=0.

现在对对数损失函数求偏导

\nabla θ (n) J (θ) = \sum i = 1 m y (i) \partial P ( y ( i ) = n | x i ; θ ) \partial θ ( n ) + \sum k = 1, k \neq n K y (i) \partial P ( y ( i ) = k | x i ; θ ) \partial θ ( n )

其中,

P (y (i) = n | x i; θ) = log exp ( θ ( n ) ⊤ x ( i ) ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) )

P (y (i) = k | x i; θ) = log exp ( θ ( k ) ⊤ x ( i ) ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) )

\partial P ( y ( i ) = n | x i ; θ ) \partial θ ( n ) = \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) exp ( θ ( n ) ⊤ x ( i ) ) * ⎛ ⎝ ⎜ ⎜ exp ( θ ( n ) ⊤ x ( i ) ) * x ( i ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) - exp ( θ ( n ) ⊤ x ( i ) ) * exp ( θ ( n ) ⊤ x ( i ) ) x ( i ) [ \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) ] 2 ⎞ ⎠ ⎟ ⎟ = x (i) - exp ( θ ( n ) ⊤ x ( i ) ) x ( i ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) = x (i) (1 - P (y (i) = n | x i; θ))

另外一个，

\partial P ( y ( i ) = k | x i ; θ ) \partial θ ( n ) = \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) exp ( θ ( k ) ⊤ x ( i ) ) ⎛ ⎝ ⎜ ⎜ - exp ( θ ( k ) ⊤ x ( i ) ) * exp ( θ ( n ) ⊤ x ( i ) ) x ( i ) [ \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) ] 2 ⎞ ⎠ ⎟ ⎟ = - exp ( θ ( n ) ⊤ x ( i ) ) x ( i ) \sum K j = 1 exp ( θ ( j ) ⊤ x ( i ) ) = - P (y (i) = n | x i; θ) x (i)

\nabla θ (k) J (θ) = - \sum i = 1 m [x (i) (1 {y (i) = k} - P (y (i) = k | x (i); θ))]

0 0