无意义-深度学习前向反向传播笔记

来源：互联网发布：逆战混沌16连炮数据编辑：程序博客网时间：2024/05/21 14:08

1、通过神经元创造出NAND门
2、感知器中，偏置b类似于对wx进行决策的阀值
3、我们想创造出一个感知器：微微修改输入或权值，输出也只是微小变化。但感知器会产生天翻地覆的变化
4、sigmod的目的即实现3
5、sigmod和感知器的区别，主要在于0附近区域。感知器为0or1，sigmod为0~1
6、delta_输出=delta_w*w向偏导+delta_b*b向偏导，输出变化为w和b变化的线性函数
7、隐藏层意义：既不是输入层，也不是输出层
8、输入为0~1，将图像强度变为0~1。0白色 1黑色
9、不存在回路，否则输入会由输出决定。只有在某些模型，输入在很久后收到输出影响。此时才有意义。
10、手写识别demo:1、拆分出单个字母 2、隐藏层表达数字的各个特征，比如0对应的四个特征均激活，则判定为0
11、最小化代价函数，而不是最大化数字概率。是因为前者是跟随w,b的平滑函数，后者不是。类似感知器和sigmod的关系
12、训练的目标：寻找W，b最小化代价函数。故可以采用梯度下降法来求解
13、梯度下降法理解：一个球掉入连绵山谷中，最终的位置就是极小值
14、代价函数沿着其自变量的偏导方向变化。正三角代表变化量，倒三角代表偏导数向量（梯度向量）
15、梯度下降法，找到一个固定步长。实现极快又收敛地找到min。梯度下降法理解为按着固定步长delta,沿着下降速度最快的方向（导数）。寻找最优解
16、柯西不等式 Cauchy-Schwarz inequality很重要：|xy|<=x*y
17、 second partial derivatives二阶偏导数
18、梯度下降法最大的优势是，只需要一阶偏导。计算量小。其他一些方法最大的弊病是用到二阶导数
19、随机梯度下降法：C是x个样本的代价函数之和，单个代价函数和W,b的关系表达式也一样。其意义是使用随机的单个代价函数相对于W、b的偏导。代替总体代价函数在梯度下降法中的W、b
20、C=f1(w,b)+f2(w,b)+f3(w,b) C1=f1(w,b) delta_C1=f1/w*delta_w+f1/b*delta_b 所以使用部分fx获得的C~来取代C
21、随机梯度下降法：原本追求所有样本的代价函数最小，现在该追求随机选取的部分样本的代价函数最小
22、深层网络，逆向看，是具体问题分解的过程。从识别是不是人到有没有眼睛到有没有眉毛到....该位置像素是不是黑色

第二章
1、反向传播，给了深刻理解关于w、b的变化是如何影响全局行为C的。
2、wij,代表上一层j到当前层i的权重。有些奇怪。但是为了计算当前层wij*a+b着想3、假设1：C=mean(sum(C_x)),C_x代单样本对应的代价
3、假设2：代价C能够被写成激励输出a_output为自变量的函数形式C=C(a_output)

4、残差是输入端z对于C的影响。而不是激活值a对于C的影响

几个问题，关于训练过程

1、对于一个多分类的神经网络，y是指什么

2、是否对所有样本的y求其代价函数，再回头修改w，b。使代价函数最小？

0 0