如何理解神经网络里面的反向传播算法？

转载

作者：知乎用户
链接：https://www.zhihu.com/question/24827633/answer/91489990
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

一般都是用链式法则解释
比如如下的神经网络

前向传播

对于节点来说，的净输入如下：

接着对做一个sigmoid函数得到节点的输出：

类似的，我们能得到节点、、的输出、、。

误差

得到结果后，整个神经网络的输出误差可以表示为：

其中就是刚刚通过前向传播算出来的、；是节点、的目标值。用来衡量二者的误差。
这个也可以认为是cost function，不过这里省略了防止overfit的regularization term（）
展开得到

后向传播

对输出层的

通过梯度下降调整，需要求，由链式法则：
，
如下图所示：

以上3个相乘得到梯度，之后就可以用这个梯度训练了：

很多教材比如Stanford的课程，会把中间结果记做，表示这个节点对最终的误差需要负多少责任。。所以有。

对隐藏层的

通过梯度下降调整，需要求，由链式法则：
，
如下图所示：

参数影响了，进而影响了，之后又影响到、。
求解每个部分：
，
其中，这里之前计算过。
的计算也类似，所以得到
。
的链式中其他两项如下：
，

相乘得到

得到梯度后，就可以对迭代了：
。
在前一个式子里同样可以对进行定义，，所以整个梯度可以写成

=======================
上述就是教程Unsupervised Feature Learning and Deep Learning Tutorial 中第三步计算的由来。。

所谓的后向传播，其实就是『将来在宣传传播上出了偏差，你们要负责的！』，每一个节点负责的量用表示，那么，隐藏节点需要负责的量，就由输出节点负责的量一层层往前传导。

参考：
【1】A Step by Step Backpropagation Example
【2】Unsupervised Feature Learning and Deep Learning Tutorial

原文地址：https://www.cnblogs.com/fuqia/p/8973799.html

时间： 2024-11-09 01:07:09

如何理解神经网络里面的反向传播算法？的相关文章

DL4NLP——神经网络（一）前馈神经网络的BP反向传播算法步骤整理

这里把按[1]推导的BP算法(Backpropagation)步骤整理一下,备忘使用.[1] 中直接使用矩阵微分的记号进行推导,整个过程十分简洁.而且这种矩阵形式有一个非常大的优势就是对照其进行编程实现时非常方便. 但其实用标量计算推导也有一定的好处,比如可以清楚地知道某个权重是被谁所影响的. 记号约定: $L$:神经网络的层数.输入层不算. $n^l$:第 $l$ 层神经元的个数.偏置神经元不算在内. $W^{l}\in\mathbb R^{n^l\times n^{l-1}}$:第 $l-1

神经网络中的反向传播算法

神经网络中的方向传播算法讲得复杂难懂.简单地说明它的原理: 神经网络:输入层,隐藏层,输出层.根据线性关系,激活函数,并最终根据监督学习写出误差表达式.此时,误差函数可写成,那么权值w和它之间存在什么关系?求偏导分析之间的变化关系不过如此.

神经网络训练中的Tricks之高效BP（反向传播算法）

神经网络训练中的Tricks之高效BP(反向传播算法) 神经网络训练中的Tricks之高效BP(反向传播算法) [email protected] http://blog.csdn.net/zouxy09 Tricks!这是一个让人听了充满神秘和好奇的词.对于我们这些所谓的尝试应用机器学习技术解决某些问题的人,更是如此.曾记得,我们绞尽脑汁,搓手顿足,大喊“为什么我跑的模型不work?”,“为什么我实现的效果那么差?”,“为什么我复现的结果没有他论文里面说的那么好?”.有人会和你说“你不懂调参!

【神经网络和深度学习】笔记 - 第二章反向传播算法

上一章中我们遗留了一个问题,就是在神经网络的学习过程中,在更新参数的时候,如何去计算损失函数关于参数的梯度.这一章,我们将会学到一种快速的计算梯度的算法:反向传播算法. 这一章相较于后面的章节涉及到的数学知识比较多,如果阅读上有点吃力的话也可以完全跳过这一章,把反向传播当成一个计算梯度的黑盒即可,但是学习这些数学知识可以帮助我们更深入的理解神经网络. 反向传播算法的核心目的是对于神经网络中的任何weight或bias计算损失函数$C$关于它们的偏导数$\frac{\partial C}{\par

《神经网络和深度学习》系列文章十六：反向传播算法代码

出处: Michael Nielsen的<Neural Network and Deep Learning>,点击末尾“阅读原文”即可查看英文原文. 本节译者:哈工大SCIR硕士生李盛秋声明:如需转载请联系[email protected],未经授权不得转载. 使用神经网络识别手写数字反向传播算法是如何工作的热身:一个基于矩阵的快速计算神经网络输出的方法关于损失函数的两个假设 Hadamard积反向传播背后的四个基本等式四个基本等式的证明(选读) 反向传播算法反向传播算法代码

神经网络中的参数的求解：前向和反向传播算法

神经网络最基本的知识可以参考神经网络基本知识,基本的东西说的很好了,然后这里讲一下神经网络中的参数的求解方法. 一些变量解释: 标上""的圆圈被称为偏置节点,也就是截距项. 本例神经网络有参数 ,其中 (下面的式子中用到)是第层第单元与第层第单元之间的联接参数(其实就是连接线上的权重,注意标号顺序), 是第层第单元的偏置项. 用表示第层的节点数(偏置单元不计在内) 用表示第层第单元的激活值(输出值).当时, ,也就是样本输入值的第个特征. 用表示第层各单元对

机器学习之五：神经网络、反向传播算法

一.逻辑回归的局限在逻辑回归一节中,使用逻辑回归的多分类,实现了识别20*20的图片上的数字. 但所使用的是一个一阶的模型,并没有使用多项式,为什么? 可以设想一下,在原有400个特征的数据样本中,增加二次.三次.四次多项式,会是什么情形? 很显然,训练样本的特征数量将会拔高多个数量级,而且,更重要的,要在一个式子中拟合这么多的特征,其难度是非常大的,可能无法收敛到一个比较理想的状态. 也就是说,逻辑回归没法提供很复杂的模型. 因为其本质上是一个线性的分类器,擅长解决的是线性可分的问题. 那么

神经网络和深度学习之——误差反向传播算法

在讲解误差反向传播算法之前,我们来回顾一下信号在神经网络中的流动过程.请细细体会,当输入向量$X$输入感知器时,第一次初始化权重向量$W$是随机组成的,也可以理解成我们任意设置了初始值,并和输入做点积运算,然后模型通过权重更新公式来计算新的权重值,更新后的权重值又接着和输入相互作用,如此迭代多次,得到最终的权重. 信号向前传播,权重的更新反向传播,是这样吗? 是的,你的直觉没错,确实是反向传播. 1. 前馈的实质反向传播这个术语经常被误解为用于多层神经网络的整个学习算法.实际上,反向传

循环神经网络(RNN)模型与前向反向传播算法

在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Recurrent Neural Networks ,以下简称RNN),它广泛的用于自然语言处理中的语音识别,手写书别以及机器翻译等领域. 1. RNN概述在前面讲到的DNN和CNN中,训练样本的输入和输出是比较的确定的.但是有一类问题DNN和CNN不好解决,就是训练样本输入是连续的序列,且序列的长短不