第二节,神经网络中反向传播四个基本公式证明——BackPropagation

参考文章

神经网络基础

Neural Networks and Deep Learning.       Michael A. Nielsen

一文弄懂神经网络中的反向传播法:讲的很详细,用实例演示了反向传播法中权重的更新过程,但是未涉及偏置的更新

假设一个三层的神经网络结构图如下:

对于一个单独的训练样本x其二次代价函数可以写成:

C = 1/2|| y - aL||2 = 1/2∑j(yj - ajL)2

ajL=σ(zjL)

zjl = ∑kωjklakl-1 + bjl

代价函数C是ajL的函数,ajL又是zjL的函数,zjL又是ωjkL的函数,同时又是akL-1的函数......

证明四个基本方程(BP1-BP4),所有这些都是多元微积分的链式法则的推论

δjL = (?C/?ajL)σ‘(zjL)                                                         (BP1)

δjl = ∑ωkjl+1δkl+1σ‘(zjl)                                                    (BP2)

      ?C/?ωjk= δjlakl-1                                                                           (BP3)

?C/?bj= δjl                                                                                      (BP4)

1.让我们从方程(BP1)开始,它给出了输出误差δL的表达式。

δjL = ?C/?zjL

应用链式法则,我们可以就输出激活值的偏导数的形式重新表示上面的偏导数:

δjL = ∑(?C/?akL)(?akL/?zjL)

这里求和是在输出层的所有神经元k上运行的,当然,第kth个神经元的输出激活值akL只依赖于当k=j时第jth个神经元的带权输入zjL。所以当k≠j

时,?akL/?zjL=0。结果简化为:

δjL = (?C/?ajL)(?ajL/?zjL)

由于ajL=σ(zjL),右边第二项可以写成σ‘(zjL),方程变成

δjL = (?C/?ajL)σ‘(zjL)

2.证明BP2,它给出了下一层误差δl+1的形式表示误差δl。为此我们要以δkl+1=?C/?zkl+1的形式重写 δjl = ?C/?zjl

δjl = ?C/?zjl

=∑(?C/?zkl+1)(?zkl+1/?zjl)

=∑(?zkl+1/?zjlkl+1

这里最后一行我们交换了右边的两项,并用δkl+1的定义带入。为此我们对最后一行的第一项求值,

注意:

zkl+1 = ∑jωkjl+1ajl + bkl+1 =  ∑jωkjl+1σ(zjl) + bkl+1 

做微分得到

?zkl+1 /?zjl = ωkjl+1σ‘(zjl)

带入上式:

δjl = ∑ωkjl+1δkl+1σ‘(zjl)

3.证明BP3。计算输出层?C/?ωjkL:

?C/?ωjkL = ∑m (?C/?amL)(?amL/?ωjkL )

这里求和是在输出层的所有神经元k上运行的,当然,第kth个神经元的输出激活值amL只依赖于当m=j时第jth个神经元的输入权重ωjkL。所以当k≠j

   时,?amL/?ωjkL=0。结果简化为:

      ?C/?ωjkL = (?C/?ajL)(?ajL/?zjL)*(?zjL/?ωjkL)

= δjLakL-1

计算输入层上一层(L-1):

?C/?ωjkL-1= (∑m(?C/?amL)(?amL/?zmL)(?zmL/?ajL-1))(/?ajL-1/?zjL-1)(?zjL-1/?ωjkL-1)

= (∑mδmLωmjL)σ‘(zjL-1)akL-2

= δjL-1akL-2

对于处输入层的任何一层(l):

?C/?ωjkl = (?C/?zjl )(?zjl/?ωjkl ) = δjlakl-1

4.证明BP4。计算输出层?C/?bjL:

?C/?bjL = ∑m (?C/?amL)(?amL/?bjL )

这里求和是在输出层的所有神经元k上运行的,当然,第kth个神经元的输出激活值amL只依赖于当m=j时第jth个神经元的输入权重bjL。所以当k≠j

   时,?amL/?bjL=0。结果简化为:

      ?C/?bjL = (?C/?ajL)(?ajL/?zjL)*(?zjL/?bjL)

= δjL

计算输入层上一层(L-1):

?C/?bjL-1= (∑m(?C/?amL)(?amL/?zmL)(?zmL/?ajL-1))(/?ajL-1/?zjL-1)(?zjL-1/?bjL-1)

= (∑mδmLωmjL)σ‘(zjL-1)

= δjL-1

对于处输入层的任何一层(l):

?C/?bj= (?C/?zjl )(?zjl/?bjl) = δjl

原文地址:https://www.cnblogs.com/zyly/p/8532368.html

时间: 2024-10-10 04:38:36

第二节,神经网络中反向传播四个基本公式证明——BackPropagation的相关文章

神经网络之反向传播算法实现

1 神经网络模型 以下面神经网络模型为例,说明神经网络中正向传播和反向传播过程及代码实现 1.1 正向传播 (1)输入层神经元\(i_1,i_2\),输入层到隐藏层处理过程 \[HiddenNeth_1 = w_1i_1+w_2i_2 + b_1\] \[HiddenNeth_2 = w_3i_1+w_4i_2 + b_1\] \[h_1 = sigmoid(HiddenNeth_1)\] \[h_2 = sigmoid(HiddenNeth_2)\] (2)隐藏层:神经元\(h_1,h_2\)

机器学习之五:神经网络、反向传播算法

一.逻辑回归的局限 在逻辑回归一节中,使用逻辑回归的多分类,实现了识别20*20的图片上的数字. 但所使用的是一个一阶的模型,并没有使用多项式,为什么? 可以设想一下,在原有400个特征的数据样本中,增加二次.三次.四次多项式,会是什么情形? 很显然,训练样本的特征数量将会拔高多个数量级,而且,更重要的,要在一个式子中拟合这么多的特征,其难度是非常大的,可能无法收敛到一个比较理想的状态. 也就是说,逻辑回归没法提供很复杂的模型. 因为其本质上是一个线性的分类器,擅长解决的是线性可分的问题. 那么

深度学习基础--神经网络--BP反向传播算法

BP算法: 1.是一种有监督学习算法,常被用来训练多层感知机.  2.要求每个人工神经元(即节点)所使用的激励函数必须可微. (激励函数:单个神经元的输入与输出之间的函数关系叫做激励函数.) (假如不使用激励函数,神经网络中的每层都只是做简单的线性变换,多层输入叠加后也还是线性变换.因为线性模型的表达能力不够,激励函数可以引入非线性因素) 下面两幅图分别为:无激励函数的神经网络和激励函数的神经网络 如图所示,加入非线性激活函数后的差异:上图为用线性组合逼近平滑曲线来分割平面,下图为使用平滑的曲线

神经网络和反向传播算法推导

注:由于自己画图实在太难画,本文中基本所有插图来源于算法团子机器学习班,请勿转载 1.普通的机器学习模型: 其实,基本上所有的基本机器学习模型都可以概括为以下的特征:根据某个函数,将输入计算并输出.图形化表示为下图: 当我们的g(h)为sigmoid函数时候,它就是一个逻辑回归的分类器.当g(h)是一个只能取0或1值的函数时,它就是一个感知机.那么问题来了,这一类模型有明显缺陷:当模型线性不可分的时候,或者所选取得特征不完备(或者不够准确)的时候,上述分类器效果并不是特别喜人.如下例: 我们可以

【神经网络和深度学习】笔记 - 第二章 反向传播算法

上一章中我们遗留了一个问题,就是在神经网络的学习过程中,在更新参数的时候,如何去计算损失函数关于参数的梯度.这一章,我们将会学到一种快速的计算梯度的算法:反向传播算法. 这一章相较于后面的章节涉及到的数学知识比较多,如果阅读上有点吃力的话也可以完全跳过这一章,把反向传播当成一个计算梯度的黑盒即可,但是学习这些数学知识可以帮助我们更深入的理解神经网络. 反向传播算法的核心目的是对于神经网络中的任何weight或bias计算损失函数$C$关于它们的偏导数$\frac{\partial C}{\par

《神经网络和深度学习》系列文章十五:反向传播算法

出处: Michael Nielsen的<Neural Network and Deep Learning>,点击末尾“阅读原文”即可查看英文原文. 本节译者:哈工大SCIR本科生 王宇轩 声明:如需转载请联系[email protected],未经授权不得转载. 使用神经网络识别手写数字 反向传播算法是如何工作的 热身:一个基于矩阵的快速计算神经网络输出的方法 关于损失函数的两个假设 Hadamard积 反向传播背后的四个基本等式 四个基本等式的证明(选读) 反向传播算法 反向传播算法代码

循环神经网络(RNN)模型与前向反向传播算法

在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Recurrent Neural Networks ,以下简称RNN),它广泛的用于自然语言处理中的语音识别,手写书别以及机器翻译等领域. 1. RNN概述 在前面讲到的DNN和CNN中,训练样本的输入和输出是比较的确定的.但是有一类问题DNN和CNN不好解决,就是训练样本输入是连续的序列,且序列的长短不

反向传播与神经网络

1.反向传播 关于反向传播我的理解是这样的,SVM和SoftMax可以看成一层神经网络,你如果想要调整它的W很简单,只有求导就可以了,但是当神经网络有多层的话,你无法直接求导来更新最开始层的W,于是就出现了反向传播这个工具.至于神经网络为什么需要多层,理由有很多,我先举个例子,比如一个汽车在图片里面可以有各个方向的,而一层神经网络(SVM和SoftMax)只能处理一种方向的情况,当你需要处理所有情况就需要多层神经网络了. 上面是关于为什么需要多层神经网络和反向传播的解释,下面我介绍反向传播的具体

什么是反向传播

作者:韩小雨 类别:①反向传播算法  ②反向传播模型 反向传播算法(英:Backpropagation algorithm,简称:BP算法) 算法简介:是一种监督学习算法,常被用来训练多层感知机. 于1974年,Paul Werbos[1]首次给出了如何训练一般网络的学习算法,而人工神经网络只是其中的特例.不巧的,在当时整个人工神经网络社群中却无人知晓Paul所提出的学习算法.直到80年代中期,BP算法才重新被David Rumelhart.Geoffrey Hinton及Ronald Will