无意义-深度学习前向反向传播笔记

来源:互联网 发布:逆战混沌16连炮数据 编辑:程序博客网 时间:2024/05/21 14:08
1、通过神经元创造出NAND门
2、感知器中,偏置b类似于对wx进行决策的阀值
3、我们想创造出一个感知器:微微修改输入或权值,输出也只是微小变化。但感知器会产生天翻地覆的变化
4、sigmod的目的即实现3
5、sigmod和感知器的区别,主要在于0附近区域。感知器为0or1,sigmod为0~1
6、delta_输出=delta_w*w向偏导+delta_b*b向偏导,输出变化为w和b变化的线性函数
7、隐藏层意义:既不是输入层,也不是输出层
8、输入为0~1,将图像强度变为0~1。0白色 1黑色
9、不存在回路,否则输入会由输出决定。只有在某些模型,输入在很久后收到输出影响。此时才有意义。
10、手写识别demo:1、拆分出单个字母 2、隐藏层表达数字的各个特征,比如0对应的四个特征均激活,则判定为0
11、最小化代价函数,而不是最大化数字概率。是因为前者是跟随w,b的平滑函数,后者不是。类似感知器和sigmod的关系
12、训练的目标:寻找W,b最小化代价函数。故可以采用梯度下降法来求解
13、梯度下降法理解:一个球掉入连绵山谷中,最终的位置就是极小值
14、代价函数沿着其自变量的偏导方向变化。正三角代表变化量,倒三角代表偏导数向量(梯度向量)
15、梯度下降法,找到一个固定步长。实现极快又收敛地找到min。梯度下降法理解为按着固定步长delta,沿着下降速度最快的方向(导数)。寻找最优解
16、柯西不等式 Cauchy-Schwarz inequality很重要:|xy|<=x*y
17、 second partial derivatives二阶偏导数
18、梯度下降法最大的优势是,只需要一阶偏导。计算量小。其他一些方法最大的弊病是用到二阶导数
19、随机梯度下降法:C是x个样本的代价函数之和,单个代价函数和W,b的关系表达式也一样。其意义是使用随机的单个代价函数相对于W、b的偏导。代替总体代价函数在梯度下降法中的W、b
20、C=f1(w,b)+f2(w,b)+f3(w,b) C1=f1(w,b) delta_C1=f1/w*delta_w+f1/b*delta_b  所以使用部分fx获得的C~来取代C
21、随机梯度下降法:原本追求所有样本的代价函数最小,现在该追求随机选取的部分样本的代价函数最小
22、深层网络,逆向看,是具体问题分解的过程。从识别是不是人到有没有眼睛到有没有眉毛到....该位置像素是不是黑色


第二章
1、反向传播,给了深刻理解关于w、b的变化是如何影响全局行为C的。
2、wij,代表上一层j到当前层i的权重。有些奇怪。但是为了计算当前层wij*a+b着想3、假设1:C=mean(sum(C_x)),C_x代单样本对应的代价 
3、假设2:代价C能够被写成激励输出a_output为自变量的函数形式C=C(a_output)

4、残差是输入端z对于C的影响。而不是激活值a对于C的影响


几个问题,关于训练过程

1、对于一个多分类的神经网络,y是指什么

2、是否对所有样本的y求其代价函数,再回头修改w,b。使代价函数最小?

0 0
原创粉丝点击