程序博客网 > 惠州乐知英语

神经网络笔记

来源：互联网发布：惠州乐知英语编辑：程序博客网时间：2024/06/05 17:26

如上文所述, 如果我们使用均方误差来考量学习误差

C = 1 2 n \sum x | | y (x) - a L (x) | | 2

则有

\partial C \partial w = (a - y) σ' (z) x

\partial C \partial b = (a - y) σ' (z)

Sigmoid 函数的曲线大致如下图:
这里写图片描述

这里写图片描述

当神经元的输出接近

0或者

1的时候, 曲线是比较平的, 这也就意味着

σ′(z)是一个很小的值, 这样的话, 学习速度势必下降. 为了优化神经网络学习, 我们引入了交叉熵(Cross-Entropy).
交叉熵的定义如下:

C = - 1 n \sum x [y ln a + (1 - y) ln (1 - a)]

从交叉熵的计算公式, 可以发现:

a和y的取值域为[0,1], 所以每一个单独项都是负数, 注意前面的系数−1n, 所以可以得到C≥0.
如果y=0,a≈0, 可以得到C≈0, 同理, y=1,a≈1, 可得C≈0.

所以, 交叉熵是可以作为代价函数来考量学习误差的. 接下来分析学习速度.

\partial C \partial w j = - 1 n \sum x (y σ ( z ) - 1 - y 1 - σ ( z )) \partial σ \partial w j

\partial C \partial w j = - 1 n \sum x (y σ ( z ) - 1 - y 1 - σ ( z )) σ' (z) x j

继续推导:

\partial C \partial w j = 1 n \sum x σ ' ( z ) x j σ ( z ) ( 1 - σ ( z ) ) (σ (z) - y)

因为

sigmoid函数的性质

σ′(z)=σ(z)(1−σ(z)),
所以:

\partial C \partial w j = 1 n \sum x x j (σ (z) - y)

显然, 学习速度跟学习误差成比, 这正是所期望的.
类似的, 我们也可以由此推导

\partial C \partial b = 1 n \sum x (σ (z) - y)

Reference

http://neuralnetworksanddeeplearning.com/ 强烈推荐
https://en.wikipedia.org/wiki/Cross_entropy

阅读全文

1 0

惠州乐知英语

惠州乐知英语

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子护照没带怎么办资生堂假货怎么办猫挑食变很瘦怎么办刷酸脸烧伤了怎么办幼犬大便干燥怎么办牛油果都熟了怎么办牛油果太青怎么办牛油果太生怎么办牛油果太硬了怎么办奇异果酸怎么办吃到没熟的香蕉怎么办猕猴桃轻微过敏怎么办吃太多糯米怎么办吃杏子上火怎么办伊思爆痘后该怎么办雌激素高怎么办使用护肤品过敏怎么办用ahc水乳起痘怎么办洗面奶过敏怎么办用不完的爽肤水怎么办产品过敏怎么办 ahc眼霜水乳分离怎么办 vulkan不支持怎么办血清生长激素高怎么办雌激素分泌过多怎么办雌激素过多怎么办抗勒氏管激素低怎么办雌激素分泌旺盛怎么办 QQar组建失败怎么办脸上护肤品过敏怎么办 wwe2k18被压制怎么办 wwe2k18卡怎么办花王卫生巾过敏怎么办健身浑身酸痛怎么办芬吗通中途出血怎么办贴活血止疼膏养怎么办减肥便秘了怎么办减肥时期便秘怎么办气垫卡粉浮粉怎么办运城电工证怎么办怀孕初期拉肚子怎么办