全连接的BP神经网络

《全连接的BP神经网络》

本文主要描述全连接的BP神经网络的前向传播和误差反向传播，所有的符号都用Ng的Machine learning的习惯。下图给出了某个全连接的神经网络图。

1前向传播

1.1前向传播

分别计算第l层神经元的输入和输出；

1.1.1偏执项为1时

向量整体形式：

分量形式：

1.1.2偏执项为b时

向量整体形式：

分量形式：

1.2网络误差

1.2.1偏执项为1时

对于某一个输入样本，它的输出为，它所对应的真实输出应该为，那么，该样本对应的误差E为

（1）

注意到输出层的第k个神经元的输出可以计算如下：

（2）

那么，误差E可以展开至隐藏层(第L-1层)的形式

（3）

又注意到隐藏层(第L-1层)的第j个神经元的输出可以计算如下：

(4)

那么，误差E进一步展开至隐藏层(第L-2层)

(5)

可以发现，E是权值的函数。

1.2.2偏执项为b时

对于某一个输入样本，它的输出为，它所对应的真实输出应该为，那么，该样本对应的误差E为

(6)

注意到输出层的第k个神经元的输出可以计算如下：

(7)

那么，误差E可以展开至隐藏层(第L-1层)的形式

(8)

又注意到隐藏层(第L-1层)的第j个神经元的输出可以计算如下：

(9)

那么，误差E进一步展开至隐藏层(第L-2层)

(10)

可以发现，E是权值和偏执项的函数。

2误差反向传播中的敏感度

某一层的敏感度的定义为：网络的误差对该层的输入的偏导数，即

2.1偏执项为1时的敏感度

2.1.1输出层的敏感度

输出层（第L层）的第k个神经元的敏感度定义如下：

为了计算该敏感度，利用链式法则，引入中间变量（第L层的第k个神经元的输出）：

(11)

首先，计算：

然后，计算：

这里的f为sigmoid函数，有：

从而可以得到：

(12)

那么，第L层的所有神经元的敏感度为：

(13)

2.1.2其他层

计算第L-1层的第j个神经元的敏感度，定义如下：

为了计算该敏感度，利用链式法则，引入中间变量（第L-1层的第j个神经元的输出）：

(14)

首先，计算：

其中：

则有：

然后，计算：

从而可以得到：

(15)

其中：

那么，第L-1层的所有神经元的敏感度为

(16)

以上推导是由第L层的敏感度计算第L-1层的敏感度，那么，利用递推方法可以得到第l层的敏感度的计算方法（l=L-1,…,2）：

(17)

2.2偏执项为b时的敏感度

推导过程中，只有一处发生改变，即隐藏层的计算式发生如下改变，但结果并没有改变，所以不会对最终的敏感度的计算公式造成影响：

3梯度的计算

3.1单个样本（偏执项为1时）的梯度

此时的待优化参数只有权值矩阵中的元素，计算误差E对第l层的权值矩阵的偏导数：

对于其中的某一个元素，计算如下：

那么，整个求导矩阵计算如下：

即：

3.2单个样本（偏执项为b时）的梯度

此时的待优化参数为权值矩阵中的元素和偏执项b；

首先计算误差E对第l层的权值矩阵的偏导数：

对于其中的某一个元素，计算如下：

那么，整个求导矩阵计算如下：

接下来，计算误差E对第l层的偏执项矩阵的偏导数：

对于其中的某一个元素，计算如下：

所以，整个偏执项求得到计算如下：

3.3m个样本的梯度求解（未加入其他惩罚项）

如前所述，对于单个样本而言，它的代价函数为E，现在有m个训练样本，它的代价函数应该为所有样本的代价函数的均值，用E_i表示第i个训练样本的代价函数（也就是前文一直使用的代价函数），E表示所有样本的代价函数，则它们有如下关系：

则有：

(18)

如果有偏执项b的话，则有

(19)

如果有m个样本，前面计算所得得到的和都是矩阵，它们的每一列是每个样本对应的第l层的敏感度和输出值。那么，可以按照如下方式计算m个样本所对应的梯度值：

（1）偏执项为1

(20)

（2）偏执项为b

(21)

(22)

4加了正则化项和稀疏项后

4.1网络误差

加入了正则化项和稀疏项后的网络误差计算公式如下：

(23)

其中：

J₁、J₂和J₃的计算方法分别如下：

第k个隐藏层中j个神经元的相对熵的计算公式如下：

(24)

其中：，为第k个隐藏层中j个神经元相对于第i个输入样本的激励值，而为第k个隐藏层中j个神经元相对于所有输入样本激励值的均值。

4.2网络代价函数的偏导数

网络代价函数的偏导数：

其中：

（1）偏执项为1时

(25)

（2）偏执项为b时

(26)

4.3敏感度的计算

加入了权值惩罚项和稀疏项后，输出层的敏感度计算不发生变化，而其余各层的敏感度公式变为如下：

(27)

5计算流程

利用前向传播算法计算各层的激励值
计算整个网络的代价函数
利用式 (23)
利用反向传播算法计算各层的敏感度
计算代价函数对权值矩阵和偏执项的梯度
利用式(26)计算代价函数对权值矩阵和偏执项的梯度

时间： 2024-11-09 00:51:51

全连接的BP神经网络的相关文章

RBF神经网络和BP神经网络的关系

作者:李瞬生链接:https://www.zhihu.com/question/44328472/answer/128973724来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. BP Neural Network - 使用 Automatic Differentiation (Backpropagation) 进行导数计算的层级图模型 (layer-by-layer graphical model) 只要模型是一层一层的,并使用AD/BP算法,就能称作 BP Ne

全连接神经网络 MLP

全连接神经网络 MLP 最近开始进行模型压缩相关课题,复习一下有关的基础知识. 1. MLP简介上图是一个简单的MLP,这是典型的三层神经网络的基本构成,Layer L1是输入层,Layer L2是隐含层,Layer L3是隐含层. 为了方便下面的公式描述,引入一张带公式的图. i是input层,h是hide层,o是output层. 2. MLP 正向传播正向传播其实就是预测过程,就是由输入到输出的过程. 为之前的图片赋上初值, 上述变量中,存在着如下过程:原始输入-> 带权计算-> ne

【TensorFlow/简单网络】MNIST数据集-softmax、全连接神经网络，卷积神经网络模型

初学tensorflow,参考了以下几篇博客: soft模型 tensorflow构建全连接神经网络 tensorflow构建卷积神经网络 tensorflow构建卷积神经网络 tensorflow构建CNN[待学习] 全连接+各种优化[待学习] BN层[待学习] 先解释以下MNIST数据集,训练数据集有55,000 条,即X为55,000 * 784的矩阵,那么Y为55,000 * 10的矩阵,每个图片是28像素*28像素,带有标签,Y为该图片的真实数字,即标签,每个图片10个数字,1所在位置

前馈全连接神经网络和函数逼近、时间序列预测、手写数字识别

https://www.cnblogs.com/conmajia/p/annt-feed-forward-fully-connected-neural-networks.html Andrew Kirillov 著Conmajia 译2019 年 1 月 12 日原文发表于 CodeProject(2018 年 9 月 28 日). 中文版有小幅修改,已获作者本人授权. 本文介绍了如何使用 ANNT 神经网络库生成前馈全连接神经网络并应用到问题求解. 全文约 12,000 字,建议阅读时间 3

神经网络之全连接层（线性层）

对于神经网络的全连接层,前面已经使用矩阵的运算方式实现过,本篇将引入tensorflow中层的概念, 正式使用deep learning相关的API搭建一个全连接神经网络.下面是全连接神经网络的结构图其中,x1,x2,x3为输入,a1,a2,a3为输出,运算关系如下: x1,x2,x3所在的层叫神经网络的输入层,a1,a2,a3所在的层叫神经网络的输出层,如果两层中间还有若干层,那么中间的这些层叫做隐藏层. 那么,如何使用tensorflow去创建这样的层呢?其实非常简单,只需要调用tf.ke

tensorflow 全连接神经网络识别mnist数据

之前没有学过tensorflow,所以使用tensorflow来对mnist数据进行识别,采用最简单的全连接神经网络,第一层是784,(输入层),隐含层是256,输出层是10 ,相关注释卸载程序中. 1 #!/usr/bin/env python 3.6 2 #_*_coding:utf-8 _*_ 3 #@Time :2020/2/12 15:34 4 #@Author :hujinzhou 5 #@FileName: mnist.py 6 7 #@Software: PyCharm

BP神经网络推导过程详解

BP算法是一种最有效的多层神经网络学习方法,其主要特点是信号前向传递,而误差后向传播,通过不断调节网络权重值,使得网络的最终输出与期望输出尽可能接近,以达到训练的目的. 一.多层神经网络结构及其描述下图为一典型的多层神经网络. 通常一个多层神经网络由L层神经元组成,其中:第1层称为输入层,最后一层(第L层)被称为输出层,其它各层均被称为隐含层(第2层~第L-1层). 令输入向量为: \[ \vec x = [x_1 \quad x_2 \quad \ldots \quad x_i \quad

BP神经网络公式推导及实现(MNIST)

BP神经网络的基础介绍见:http://blog.csdn.net/fengbingchun/article/details/50274471,这里主要以公式推导为主. BP神经网络又称为误差反向传播网络,其结构如下图.这种网络实质是一种前向无反馈网络,具有结构清晰.易实现.计算功能强大等特点. BP神经网络有一个输入层,一个输出层,一个或多个隐含层.每一层上包含了若干个节点,每个节点代表一个神经元,同一层上各节点之间无任何耦合连接关系,层间各神经元之间实现全连接,即后一层(如输入层)的每一个神

BP神经网络的数学原理及其算法实现

标签: 分类器神经网络出处http://blog.csdn.net/zhongkejingwang/article/details/44514073 上一篇文章介绍了KNN分类器,当时说了其分类效果不是很出色但是比较稳定,本文后面将利用BP网络同样对Iris数据进行分类. 什么是BP网络 BP神经网络,BP即Back Propagation的缩写,也就是反向传播的意思,顾名思义,将什么反向传播?文中将会解答.不仅如此,关于隐层的含义文中也会给出个人的理解.最后会用Java实现的BP分类器作为其