机器学习之softmax函数
来源:互联网 发布:php object to xml 编辑:程序博客网 时间:2024/06/06 03:18
Softmax分类函数
这篇教程是翻译Peter Roelants写的神经网络教程,作者已经授权翻译,这是原文。
该教程将介绍如何入门神经网络,一共包含五部分。你可以在以下链接找到完整内容。
- (一)神经网络入门之线性回归
- Logistic分类函数
- (二)神经网络入门之Logistic回归(分类问题)
- (三)神经网络入门之隐藏层设计
- Softmax分类函数
- (四)神经网络入门之矢量化
- (五)神经网络入门之构建多层网络
softmax分类函数
这部分教程将介绍两部分:
- softmax函数
- 交叉熵损失函数
在先前的教程中,我们已经使用学习了如何使用Logistic函数来实现二分类问题。对于多分类问题,我们可以使用多项Logistic回归,该方法也被称之为softmax函数。接下来,我们来解释什么事softmax函数,以及怎么得到它。
我们先导入教程需要使用的软件包。
import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import colorConverter, ListedColormap from mpl_toolkits.mplot3d import Axes3D from matplotlib import cm
Softmax函数
在之前的教程中,我们已经知道了Logistic函数只能被使用在二分类问题中,但是它的多项式回归,即softmax函数,可以解决多分类问题。假设softmax函数ς
的输入数据是C
维度的向量z
,那么softmax函数的数据也是一个C
维度的向量y
,里面的值是0到1之间。softmax函数其实就是一个归一化的指数函数,定义如下:
式子中的分母充当了正则项的作用,可以使得
作为神经网络的输出层,softmax函数中的值可以用C
个神经元来表示。
对于给定的输入z
,我们可以得到每个分类的概率t = c for c = 1 ... C
可以表示为:
其中,P(t=c|z)
表示,在给定输入z
时,该输入数据是c
分类的概率。
下图展示了在一个二分类(t = 1, t = 2)
中,输入向量是z = [z1, z2]
,那么输出概率P(t=1|z)
如下图所示。
# Define the softmax functiondef softmax(z): return np.exp(z) / np.sum(np.exp(z))
# Plot the softmax output for 2 dimensions for both classes# Plot the output in function of the weights# Define a vector of weights for which we want to plot the ooutputnb_of_zs = 200zs = np.linspace(-10, 10, num=nb_of_zs) # input zs_1, zs_2 = np.meshgrid(zs, zs) # generate gridy = np.zeros((nb_of_zs, nb_of_zs, 2)) # initialize output# Fill the output matrix for each combination of input z'sfor i in range(nb_of_zs): for j in range(nb_of_zs): y[i,j,:] = softmax(np.asarray([zs_1[i,j], zs_2[i,j]]))# Plot the cost function surfaces for both classesfig = plt.figure()# Plot the cost function surface for t=1ax = fig.gca(projection='3d')surf = ax.plot_surface(zs_1, zs_2, y[:,:,0], linewidth=0, cmap=cm.coolwarm)ax.view_init(elev=30, azim=70)cbar = fig.colorbar(surf)ax.set_xlabel('$z_1$', fontsize=15)ax.set_ylabel('$z_2$', fontsize=15)ax.set_zlabel('$y_1$', fontsize=15)ax.set_title ('$P(t=1|\mathbf{z})$')cbar.ax.set_ylabel('$P(t=1|\mathbf{z})$', fontsize=15)plt.grid()plt.show()
softmax函数的导数
在神经网络中,使用softmax函数,我们需要知道softmax函数的导数。如果我们定义:
那么可以得到:
因此,softmax函数的输出结果y
对于它的输入数据z
的导数∂yi/∂zj
可以定义为:
注意,当i = j
时,softmax函数的倒数推导结果和Logistic函数一样。
softmax函数的交叉熵损失函数
在学习softmax函数的损失函数之前,我们先从学习它的最大似然函数开始。给定模型的参数组θ
,利用这个参数组,我们可以得到输入样本的正确预测,正如在Logistic损失函数推导中,我们可以仿照写出这个的最大似然估计:
根据联合概率,我们可以将似然函数改写成:P(t,z|θ)
,根据条件分布,我们最终可以得到如下公式:
因为我们不关心z
的概率,所以公式又可以改写为:L(θ|t,z)=P(t|z,θ)
。而且,P(t|z, θ)
可以被写成P(t|z)
,如果θ
会一个定值。因为,每一个ti
都是依赖于整个z
,而且只有其中一个t
将会被激活,所以我们可以得到下式:
正如我们在Logistic函数中推导损失函数的导数一样,最大化似然函数就是最小化它的负对数释然函数:
其中,ξ
表示交叉熵误差函数。在二分类问题中,我们将t2
定义为t2=1−t1
。同理,在softmax函数中,我们也可以定义为:
在n
个样本的批处理中,交叉熵误差函数可以这样计算:
其中,当且仅当tic
是1
,那么样本i
是属于类别c
,yic
是样本i
属于类别c
的概率。
softmax函数的交叉熵损失函数的推导
损失函数对于zi
的导数∂ξ/∂zi
求解如下:
上式已经求解了当i=j
和i≠j
的两种情况。
最终的结果为∂ξ/∂zi=yi−ti for all i ∈ C
,这个求导结果和Logistic函数的交叉熵损失函数求导是一样的,再次证明softmax函数是Logistic函数的一个扩展板。
- 机器学习之softmax函数
- 【机器学习】softmax函数总结
- 机器学习中的Softmax函数
- 机器学习之Softmax回归
- 机器学习之softmax回归
- 机器学习----Softmax回归
- 机器学习:Softmax回归
- 【机器学习】Softmax推导
- 机器学习之Softmax回归(Python实现)
- 机器学习——线性模型之softmax回归
- 【机器学习】Softmax Regression简介
- Tensorflow之softmax学习
- 深度学习常用激活函数之— Sigmoid & ReLU & Softmax
- 深度学习常用激活函数之— Sigmoid & ReLU & Softmax
- 深度学习常用激活函数之— Sigmoid & ReLU & Softmax
- 深度学习常用激活函数之— Sigmoid & ReLU & Softmax
- 机器学习(5)-理解softmax的损失函数和梯度表达式的实现+编程总结
- 机器学习中的损失函数 (着重比较:hinge loss vs softmax loss)
- Android如何实现APP自动更新
- Git-使用
- js特效
- Gradle学习记录
- HashMap的工作原理
- 机器学习之softmax函数
- 大华摄像头java开发之预览
- Android的事件处理
- Angular过滤敏感词
- 894E
- oracle下lag和lead分析函数
- ajax,jquery,json
- 有理有据的揭露百度点击算法
- c语言注释转换项目