首頁手記全連接層的實現

全連接層的實現

標簽：

人工智能

全连接层的推导

全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的。

全连接层的前向计算

下图中连线最密集的2个地方就是全连接层，这很明显的可以看出全连接层的参数的确很多。在前向计算过程，也就是一个线性的加权求和的过程，全连接层的每一个输出都可以看成前一层的每一个结点乘以一个权重系数W，最后加上一个偏置值b得到，即。如下图中第一个全连接层，输入有50*4*4个神经元结点，输出有500个结点，则一共需要50*4*4*500=400000个权值参数W和500个偏置参数b。

下面用一个简单的网络具体介绍一下推导过程

其中，x1、x2、x3为全连接层的输入，a1、a2、a3为输出，根据我前边在笔记1中的推导，有

可以写成如下矩阵形式：

全连接层的反向传播

以我们的第一个全连接层为例，该层有50*4*4=800个输入结点和500个输出结点。

由于需要对W和b进行更新，还要向前传递梯度，所以我们需要计算如下三个偏导数。

1、对上一层的输出（即当前层的输入）求导

若我们已知转递到该层的梯度，则我们可以通过链式法则求得loss对x的偏导数。
首先需要求得该层的输出a_i对输入x_j的偏导数

再通过链式法则求得loss对x的偏导数：

上边求导的结果也印证了我前边那句话：在反向传播过程中，若第x层的a节点通过权值W对x+1层的b节点有贡献，则在反向传播过程中，梯度通过权值W从b节点传播回a节点。

若我们的一次训练16张图片，即batch_size=16，则我们可以把计算转化为如下矩阵形式。

2、对权重系数W求导

我们前向计算的公式如下图，

由图可知，所以：。

当batch_size=16时，写成矩阵形式：

3、对偏置系数b求导

由上面前向推导公式可知，

即loss对偏置系数的偏导数等于对上一层输出的偏导数。

当batch_size=16时，将不同batch对应的相同b的偏导相加即可，写成矩阵形式即为乘以一个全1的矩阵：

Caffe中全连接层的实现

在caffe中，关于全连接层的配置信息如下：

layer {
name: "ip1"
type: "InnerProduct"
bottom: "pool2"
top: "ip1"
param {
lr_mult: 1
}
param {
lr_mult: 2
}
inner_product_param {
num_output: 500
weight_filler {
type: "xavier"
}
bias_filler {
type: "constant"
}
}
}

该层类型为InnerProduct内积，也就是我们常说的全连接层，前一层（底层）为pool2一个池化层，顶层，即该层的输出ip1，即为一个全连接层。关于学习率的参数lr_mult我们后面在权值更新章节再看。其他的参数我们在之前的卷积层都遇到过，含义和卷积层也一样，这里就不再多说。

Caffe中全连接层相关的GPU文件有1个，为\src\caffe\layersi\nner_product_layer.cu 。

前向计算

前向过程代码如下，具体解释见注释部分：

template <typename Dtype>
void InnerProductLayer<Dtype>::Forward_gpu(const vector<Blob<Dtype>*>& bottom,
const vector<Blob<Dtype>*>& top) {
const Dtype* bottom_data = bottom[0]->gpu_data();
Dtype* top_data = top[0]->mutable_gpu_data();
const Dtype* weight = this->blobs_[0]->gpu_data();
//M_为batch_size
if (M_ == 1) {
//top_data(M*N) = bottom_data(M*K) * weight(K*N)
//这里的计算实际调用了cublas中的矩阵计算函数，我们之前也有讲解，有兴趣可以深入看一下
caffe_gpu_gemv<Dtype>(CblasNoTrans, N_, K_, (Dtype)1.,
weight, bottom_data, (Dtype)0., top_data);
//若有偏置，加上偏置
if (bias_term_)
caffe_gpu_axpy<Dtype>(N_, bias_multiplier_.cpu_data()[0],
this->blobs_[1]->gpu_data(), top_data);
} else {
//同上面
caffe_gpu_gemm<Dtype>(CblasNoTrans,
transpose_ ? CblasNoTrans : CblasTrans,
M_, N_, K_, (Dtype)1.,
bottom_data, weight, (Dtype)0., top_data);
if (bias_term_)
caffe_gpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, M_, N_, 1, (Dtype)1.,
bias_multiplier_.gpu_data(),
this->blobs_[1]->gpu_data(), (Dtype)1., top_data);
}
}

反向传播

代码及注释如下

template <typename Dtype>
void InnerProductLayer<Dtype>::Backward_gpu(const vector<Blob<Dtype>*>& top,
const vector<bool>& propagate_down,
const vector<Blob<Dtype>*>& bottom) {
if (this->param_propagate_down_[0]) {
const Dtype* top_diff = top[0]->gpu_diff();
const Dtype* bottom_data = bottom[0]->gpu_data();
// Gradient with respect to weight
//对权重求导weight_diff = top_diff * bottom_data
if (transpose_) {
caffe_gpu_gemm<Dtype>(CblasTrans, CblasNoTrans,
K_, N_, M_,
(Dtype)1., bottom_data, top_diff,
(Dtype)1., this->blobs_[0]->mutable_gpu_diff());
} else {
caffe_gpu_gemm<Dtype>(CblasTrans, CblasNoTrans,
N_, K_, M_,
(Dtype)1., top_diff, bottom_data,
(Dtype)1., this->blobs_[0]->mutable_gpu_diff());
}
}
if (bias_term_ && this->param_propagate_down_[1]) {
const Dtype* top_diff = top[0]->gpu_diff();
// Gradient with respect to bias
//对偏置值b求导 bias_diff = bias * top_diff
//这个和我之前公式推导出来的不一样，不知道为什么，如果有谁知道请留言告诉我，谢谢
caffe_gpu_gemv<Dtype>(CblasTrans, M_, N_, (Dtype)1., top_diff,
bias_multiplier_.gpu_data(), (Dtype)1.,
this->blobs_[1]->mutable_gpu_diff());
}
if (propagate_down[0]) {
const Dtype* top_diff = top[0]->gpu_diff();
// Gradient with respect to bottom data
//对上一层的输出求导bottom_diff = top_diff * weight
if (transpose_) {
caffe_gpu_gemm<Dtype>(CblasNoTrans, CblasTrans,
M_, K_, N_,
(Dtype)1., top_diff, this->blobs_[0]->gpu_data(),
(Dtype)0., bottom[0]->mutable_gpu_diff());
} else {
caffe_gpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans,
M_, K_, N_,
(Dtype)1., top_diff, this->blobs_[0]->gpu_data(),
(Dtype)0., bottom[0]->mutable_gpu_diff());
}
}
}

原文出处

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕容森

手記
篇

粉絲

183

獲贊與收藏

650

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32074 358

網絡編程入門教程

20個小節 13196 249

Pandas 入門教程

25個小節 19570 369

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空