深度学习笔记6:全连接层的实现
来源:互联网 发布:js中prompt 编辑:程序博客网 时间:2024/06/05 12:42
深度学习笔记6:全连接层的实现
版权声明:本文为博主原创文章,未经博主允许不得转载。
目录(?)[+]
- 全连接层的推导
- 全连接层的前向计算
- 全连接层的反向传播
- 对上一层的输出即当前层的输入求导
- 对权重系数W求导
- 对偏置系数b求导
- Caffe中全连接层的实现
- 前向计算
- 反向传播
如果有什么疑问或者发现什么错误,欢迎在评论区留言,有时间我会一一回复。
全连接层的推导
全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的。
全连接层的前向计算
下图中连线最密集的2个地方就是全连接层,这很明显的可以看出全连接层的参数的确很多。在前向计算过程,也就是一个线性的加权求和的过程,全连接层的每一个输出都可以看成前一层的每一个结点乘以一个权重系数W,最后加上一个偏置值b得到,即 。如下图中第一个全连接层,输入有50*4*4个神经元结点,输出有500个结点,则一共需要50*4*4*500=400000个权值参数W和500个偏置参数b。
下面用一个简单的网络具体介绍一下推导过程
其中,x1、x2、x3为全连接层的输入,a1、a2、a3为输出,根据我前边在笔记1中的推导,有
可以写成如下矩阵形式:
全连接层的反向传播
以我们的第一个全连接层为例,该层有50*4*4=800个输入结点和500个输出结点。
由于需要对W和b进行更新,还要向前传递梯度,所以我们需要计算如下三个偏导数。
1、对上一层的输出(即当前层的输入)求导
若我们已知转递到该层的梯度,则我们可以通过链式法则求得loss对x的偏导数。首先需要求得该层的输出ai对输入xj的偏导数
再通过链式法则求得loss对x的偏导数:
上边求导的结果也印证了我前边那句话:在反向传播过程中,若第x层的a节点通过权值W对x+1层的b节点有贡献,则在反向传播过程中,梯度通过权值W从b节点传播回a节点。
若我们的一次训练16张图片,即batch_size=16,则我们可以把计算转化为如下矩阵形式。
2、对权重系数W求导
我们前向计算的公式如下图,
由图可知,所以:。
当batch_size=16时,写成矩阵形式:
3、对偏置系数b求导
由上面前向推导公式可知,即loss对偏置系数的偏导数等于对上一层输出的偏导数。
当batch_size=16时,将不同batch对应的相同b的偏导相加即可,写成矩阵形式即为乘以一个全1的矩阵:
Caffe中全连接层的实现
在caffe中,关于全连接层的配置信息如下:
- layer {
- name: "ip1"
- type: "InnerProduct"
- bottom: "pool2"
- top: "ip1"
- param {
- lr_mult: 1
- }
- param {
- lr_mult: 2
- }
- inner_product_param {
- num_output: 500
- weight_filler {
- type: "xavier"
- }
- bias_filler {
- type: "constant"
- }
- }
- }
该层类型为InnerProduct内积,也就是我们常说的全连接层,前一层(底层)为pool2一个池化层,顶层,即该层的输出ip1,即为一个全连接层。关于学习率的参数lr_mult我们后面在权值更新章节再看。其他的参数我们在之前的卷积层都遇到过,含义和卷积层也一样,这里就不再多说。
Caffe中全连接层相关的GPU文件有1个,为\src\caffe\layersi\nner_product_layer.cu 。
前向计算
前向过程代码如下,具体解释见注释部分:
- template <typename Dtype>
- void InnerProductLayer<Dtype>::Forward_gpu(const vector<Blob<Dtype>*>& bottom,
- const vector<Blob<Dtype>*>& top) {
- const Dtype* bottom_data = bottom[0]->gpu_data();
- Dtype* top_data = top[0]->mutable_gpu_data();
- const Dtype* weight = this->blobs_[0]->gpu_data();
- //M_为batch_size
- if (M_ == 1) {
- //top_data(M*N) = bottom_data(M*K) * weight(K*N)
- //这里的计算实际调用了cublas中的矩阵计算函数,我们之前也有讲解,有兴趣可以深入看一下
- caffe_gpu_gemv<Dtype>(CblasNoTrans, N_, K_, (Dtype)1.,
- weight, bottom_data, (Dtype)0., top_data);
- //若有偏置,加上偏置
- if (bias_term_)
- caffe_gpu_axpy<Dtype>(N_, bias_multiplier_.cpu_data()[0],
- this->blobs_[1]->gpu_data(), top_data);
- } else {
- //同上面
- caffe_gpu_gemm<Dtype>(CblasNoTrans,
- transpose_ ? CblasNoTrans : CblasTrans,
- M_, N_, K_, (Dtype)1.,
- bottom_data, weight, (Dtype)0., top_data);
- if (bias_term_)
- caffe_gpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, M_, N_, 1, (Dtype)1.,
- bias_multiplier_.gpu_data(),
- this->blobs_[1]->gpu_data(), (Dtype)1., top_data);
- }
- }
反向传播
代码及注释如下
- template <typename Dtype>
- void InnerProductLayer<Dtype>::Backward_gpu(const vector<Blob<Dtype>*>& top,
- const vector<bool>& propagate_down,
- const vector<Blob<Dtype>*>& bottom) {
- if (this->param_propagate_down_[0]) {
- const Dtype* top_diff = top[0]->gpu_diff();
- const Dtype* bottom_data = bottom[0]->gpu_data();
- // Gradient with respect to weight
- //对权重求导weight_diff = top_diff * bottom_data
- if (transpose_) {
- caffe_gpu_gemm<Dtype>(CblasTrans, CblasNoTrans,
- K_, N_, M_,
- (Dtype)1., bottom_data, top_diff,
- (Dtype)1., this->blobs_[0]->mutable_gpu_diff());
- } else {
- caffe_gpu_gemm<Dtype>(CblasTrans, CblasNoTrans,
- N_, K_, M_,
- (Dtype)1., top_diff, bottom_data,
- (Dtype)1., this->blobs_[0]->mutable_gpu_diff());
- }
- }
- if (bias_term_ && this->param_propagate_down_[1]) {
- const Dtype* top_diff = top[0]->gpu_diff();
- // Gradient with respect to bias
- //对偏置值b求导 bias_diff = bias * top_diff
- //这个和我之前公式推导出来的不一样,不知道为什么,如果有谁知道请留言告诉我,谢谢
- caffe_gpu_gemv<Dtype>(CblasTrans, M_, N_, (Dtype)1., top_diff,
- bias_multiplier_.gpu_data(), (Dtype)1.,
- this->blobs_[1]->mutable_gpu_diff());
- }
- if (propagate_down[0]) {
- const Dtype* top_diff = top[0]->gpu_diff();
- // Gradient with respect to bottom data
- //对上一层的输出求导bottom_diff = top_diff * weight
- if (transpose_) {
- caffe_gpu_gemm<Dtype>(CblasNoTrans, CblasTrans,
- M_, K_, N_,
- (Dtype)1., top_diff, this->blobs_[0]->gpu_data(),
- (Dtype)0., bottom[0]->mutable_gpu_diff());
- } else {
- caffe_gpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans,
- M_, K_, N_,
- (Dtype)1., top_diff, this->blobs_[0]->gpu_data(),
- (Dtype)0., bottom[0]->mutable_gpu_diff());
- }
- }
- }
- 顶
- 5
- 踩
- 0
- 上一篇深度学习笔记5:池化层的实现
- 下一篇深度学习笔记7:激活函数层的实现
- • [caffe]深度学习之图像分类模型AlexNet解读
- • 用户画像系统应用与技术解析--汪剑
- • 神经网络-全连接层
- • 2017 求职面试集训营之VIP服务版--刘道宽
- • MatConvNet卷积神经网络(四)——用自己的数据训练
- • 如何优雅地编写Java
- • CNN中全连接层是什么样的?
- • MySQL特性详解
- • DL学习笔记【9】caffe参数调节-全连接层
- • React全家桶之Web基础应用
- • 全连接层解析(一)
- • OpenStack从入门到放弃
- • caffe之(四)全连接层
- • caffe学习笔记31-理解全连接层
- • 全连接层的作用
- • Caffe中卷基层和全连接层训练参数个数如何确定
- 深度学习笔记6:全连接层的实现
- 深度学习笔记6:全连接层的实现
- 深度学习笔记6:全连接层的实现
- 深度学习: Full Connection (全连接层)
- 全连接层的实现
- 深度学习---之卷积层与全连接层的区别
- 深度学习笔记4:卷积层的实现
- 深度学习笔记7:激活函数层的实现
- 深度学习笔记8:softmax层的实现
- 深度学习笔记8:softmax层的实现
- 深度学习---之全卷积神经网络取代全连接层--用于图像分割
- DL学习笔记【9】caffe参数调节-全连接层
- caffe学习笔记31-理解全连接层
- 深度学习笔记2:池化 全连接 激活函数 softmax
- 深度学习中卷基层和全连接层训练参数个数如何确定
- 深度学习Caffe实战笔记(17)MATLAB实现卷积层卷积核权重的可视化
- 全连接层的作用
- 全连接层的作用
- 17/10/23 题目泛做
- tyvj P4620 一方的loli量产计画 (快速幂)
- 利用二维图像进行头部姿态估计
- bin/mysqld: error while loading shared libraries: libnuma.so.1: 安装mysql
- 我的第一篇博客
- 深度学习笔记6:全连接层的实现
- html checkbox多选复选框form控件元素
- 欢迎使用CSDN-markdown编辑器
- 51nod 1672 区间交【线段树】【贪心】
- java学习基本流程
- SpringMvc+Maven+Jetty 环境搭建
- Spring Aop(十一)—— 编程式的创建Aop代理之ProxyFactory
- 内存中堆和栈的区别(转)
- SAMBA配置 “你可能没有权限访问网络资源”的问题解决方法