第二节，神经网络中反向传播四个基本公式证明——BackPropagation

参考文章

神经网络基础

Neural Networks and Deep Learning. Michael A. Nielsen

一文弄懂神经网络中的反向传播法：讲的很详细，用实例演示了反向传播法中权重的更新过程，但是未涉及偏置的更新

假设一个三层的神经网络结构图如下：

对于一个单独的训练样本x其二次代价函数可以写成：

C = 1/2|| y - a^L||² = 1/2∑_j(y_j - a_j^L)²

a_j^L=σ(z_j^L)

z_j^l = ∑_kω_jk^la_k^l-1 + b_j^l

代价函数C是a_j^L的函数，a_j^L又是z_j^L的函数，z_j^L又是ω_jk^L的函数，同时又是a_k^L-1的函数......

证明四个基本方程(BP1-BP4)，所有这些都是多元微积分的链式法则的推论

δ_j^L = (?C/?a_j^L)σ‘(z_j^L) (BP1)

δ_j^l = ∑_kω_kj^l+1δ_k^l+1σ‘(z_j^l) (BP2)

　　　 ?C/?ω_jk^l= δ_j^la_k^l-1(BP3)

?C/?b_j^l= δ_j^l(BP4)

1.让我们从方程(BP1)开始，它给出了输出误差δ^L的表达式。

δ_j^L = ?C/?z_j^L

应用链式法则，我们可以就输出激活值的偏导数的形式重新表示上面的偏导数：

δ_j^L = ∑_k(?C/?a_k^L)(?a_k^L/?z_j^L)

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_k^L只依赖于当k=j时第j^th个神经元的带权输入z_j^L。所以当k≠j

时，?a_k^L/?z_j^L=0。结果简化为：

δ_j^L = (?C/?a_j^L)(?a_j^L/?z_j^L)

由于a_j^L=σ(z_j^L)，右边第二项可以写成σ‘(z_j^L)，方程变成

δ_j^L = (?C/?a_j^L)σ‘(z_j^L)

2.证明BP2，它给出了下一层误差δ^l+1的形式表示误差δ^l。为此我们要以δ_k^l+1=?C/?z_k^l+1的形式重写 δ_j^l = ?C/?z_j^l

δ_j^l = ?C/?z_j^l

=∑_k(?C/?z_k^l+1)(?z_k^l+1/?z_j^l)

=∑_k(?z_k^l+1/?z_j^l)δ_k^l+1

这里最后一行我们交换了右边的两项，并用δ_k^l+1的定义带入。为此我们对最后一行的第一项求值，

注意：

z_k^l+1 = ∑_jω_kj^l+1a_j^l + b_k^l+1 = ∑_jω_kj^l+1σ(z_j^l) + b_k^l+1

做微分得到

?z_k^l+1 /?z_j^l = ω_kj^l+1σ‘(z_j^l)

带入上式:

δ_j^l = ∑_kω_kj^l+1δ_k^l+1σ‘(z_j^l)

3.证明BP3。计算输出层?C/?ω_jk^L：

?C/?ω_jkL = ∑_m (?C/?a_m^L)(?a_m^L/?ω_jk^L )

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_m^L只依赖于当m=j时第j^th个神经元的输入权重ω_jk^L。所以当k≠j

　时，?a_m^L/?ω_jk^L=0。结果简化为：

　　 ?C/?ω_jk^L = (?C/?a_j^L)(?a_j^L/?z_j^L)*(?z_j^L/?ω_jk^L)

= δ_j^La_k^L-1

计算输入层上一层(L-1):

?C/?ω_jk^L-1= (∑_m(?C/?a_m^L)(?a_m^L/?z_m^L)(?z_m^L/?a_j^L-1))(/?a_j^L-1/?z_j^L-1)(?z_j^L-1/?ω_jk^L-1)

= (∑_mδ_m^Lω_mj^L)σ‘(z_j^L-1)a_k^L-2

= δ_j^L-1a_k^L-2

对于处输入层的任何一层(l)：

?C/?ω_jk^l= (?C/?z_j^l )(?z_j^l/?ω_jk^l) = δ_j^la_k^l-1

4.证明BP4。计算输出层?C/?b_j^L：

?C/?b_j^L = ∑_m (?C/?a_m^L)(?a_m^L/?b_j^L )

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_m^L只依赖于当m=j时第j^th个神经元的输入权重b_j^L。所以当k≠j

　时，?a_m^L/?b_j^L=0。结果简化为：

　　 ?C/?b_j^L = (?C/?a_j^L)(?a_j^L/?z_j^L)*(?z_j^L/?b_j^L)

= δ_j^L

计算输入层上一层(L-1):

?C/?b_j^L-1= (∑_m(?C/?a_m^L)(?a_m^L/?z_m^L)(?z_m^L/?a_j^L-1))(/?a_j^L-1/?z_j^L-1)(?z_j^L-1/?b_j^L-1)

= (∑_mδ_m^Lω_mj^L)σ‘(z_j^L-1)

= δ_j^L-1

对于处输入层的任何一层(l)：

?C/?b_j^l= (?C/?z_j^l )(?z_j^l/?b_j^l) = δ_j^l

原文地址：https://www.cnblogs.com/zyly/p/8532368.html

时间： 2024-12-09 05:27:45

第二节，神经网络中反向传播四个基本公式证明——BackPropagation的相关文章

神经网络之反向传播算法实现

1 神经网络模型以下面神经网络模型为例,说明神经网络中正向传播和反向传播过程及代码实现 1.1 正向传播 (1)输入层神经元$i_1,i_2$,输入层到隐藏层处理过程 \[HiddenNeth_1 = w_1i_1+w_2i_2 + b_1\] \[HiddenNeth_2 = w_3i_1+w_4i_2 + b_1\] \[h_1 = sigmoid(HiddenNeth_1)\] \[h_2 = sigmoid(HiddenNeth_2)\] (2)隐藏层:神经元$h_1,h_2$

机器学习之五：神经网络、反向传播算法

一.逻辑回归的局限在逻辑回归一节中,使用逻辑回归的多分类,实现了识别20*20的图片上的数字. 但所使用的是一个一阶的模型,并没有使用多项式,为什么? 可以设想一下,在原有400个特征的数据样本中,增加二次.三次.四次多项式,会是什么情形? 很显然,训练样本的特征数量将会拔高多个数量级,而且,更重要的,要在一个式子中拟合这么多的特征,其难度是非常大的,可能无法收敛到一个比较理想的状态. 也就是说,逻辑回归没法提供很复杂的模型. 因为其本质上是一个线性的分类器,擅长解决的是线性可分的问题. 那么

深度学习基础--神经网络--BP反向传播算法

BP算法: 1.是一种有监督学习算法,常被用来训练多层感知机. 2.要求每个人工神经元(即节点)所使用的激励函数必须可微. (激励函数:单个神经元的输入与输出之间的函数关系叫做激励函数.) (假如不使用激励函数,神经网络中的每层都只是做简单的线性变换,多层输入叠加后也还是线性变换.因为线性模型的表达能力不够,激励函数可以引入非线性因素) 下面两幅图分别为:无激励函数的神经网络和激励函数的神经网络如图所示,加入非线性激活函数后的差异:上图为用线性组合逼近平滑曲线来分割平面,下图为使用平滑的曲线

神经网络和反向传播算法推导

注:由于自己画图实在太难画,本文中基本所有插图来源于算法团子机器学习班,请勿转载 1.普通的机器学习模型: 其实,基本上所有的基本机器学习模型都可以概括为以下的特征:根据某个函数,将输入计算并输出.图形化表示为下图: 当我们的g(h)为sigmoid函数时候,它就是一个逻辑回归的分类器.当g(h)是一个只能取0或1值的函数时,它就是一个感知机.那么问题来了,这一类模型有明显缺陷:当模型线性不可分的时候,或者所选取得特征不完备(或者不够准确)的时候,上述分类器效果并不是特别喜人.如下例: 我们可以

【神经网络和深度学习】笔记 - 第二章反向传播算法

上一章中我们遗留了一个问题,就是在神经网络的学习过程中,在更新参数的时候,如何去计算损失函数关于参数的梯度.这一章,我们将会学到一种快速的计算梯度的算法:反向传播算法. 这一章相较于后面的章节涉及到的数学知识比较多,如果阅读上有点吃力的话也可以完全跳过这一章,把反向传播当成一个计算梯度的黑盒即可,但是学习这些数学知识可以帮助我们更深入的理解神经网络. 反向传播算法的核心目的是对于神经网络中的任何weight或bias计算损失函数$C$关于它们的偏导数$\frac{\partial C}{\par

《神经网络和深度学习》系列文章十五：反向传播算法

出处: Michael Nielsen的<Neural Network and Deep Learning>,点击末尾“阅读原文”即可查看英文原文. 本节译者:哈工大SCIR本科生王宇轩声明:如需转载请联系[email protected],未经授权不得转载. 使用神经网络识别手写数字反向传播算法是如何工作的热身:一个基于矩阵的快速计算神经网络输出的方法关于损失函数的两个假设 Hadamard积反向传播背后的四个基本等式四个基本等式的证明(选读) 反向传播算法反向传播算法代码

循环神经网络(RNN)模型与前向反向传播算法

在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Recurrent Neural Networks ,以下简称RNN),它广泛的用于自然语言处理中的语音识别,手写书别以及机器翻译等领域. 1. RNN概述在前面讲到的DNN和CNN中,训练样本的输入和输出是比较的确定的.但是有一类问题DNN和CNN不好解决,就是训练样本输入是连续的序列,且序列的长短不

反向传播与神经网络

1.反向传播关于反向传播我的理解是这样的,SVM和SoftMax可以看成一层神经网络,你如果想要调整它的W很简单,只有求导就可以了,但是当神经网络有多层的话,你无法直接求导来更新最开始层的W,于是就出现了反向传播这个工具.至于神经网络为什么需要多层,理由有很多,我先举个例子,比如一个汽车在图片里面可以有各个方向的,而一层神经网络(SVM和SoftMax)只能处理一种方向的情况,当你需要处理所有情况就需要多层神经网络了. 上面是关于为什么需要多层神经网络和反向传播的解释,下面我介绍反向传播的具体

什么是反向传播

作者:韩小雨类别:①反向传播算法 ②反向传播模型反向传播算法(英:Backpropagation algorithm,简称:BP算法) 算法简介:是一种监督学习算法,常被用来训练多层感知机. 于1974年,Paul Werbos[1]首次给出了如何训练一般网络的学习算法,而人工神经网络只是其中的特例.不巧的,在当时整个人工神经网络社群中却无人知晓Paul所提出的学习算法.直到80年代中期,BP算法才重新被David Rumelhart.Geoffrey Hinton及Ronald Will