神经网络（七）梯度弥散（消散）和梯度爆炸

1.梯度消失（vanishing gradient problem）：

原因：例如三个隐层、单神经元网络：

假设上面是一个三层hidden layer的神经网络，每一层只有一个neuron，我们下面的分析仅仅针对bias，w也是可以类比的。

C是损失函数。

每一层的输入为z，输出为a，其中有z = w*a + b。

上面的等式∂c/∂b1由每一层的导数乘上对应的w最后乘上∂c/∂a4组成。

我们给b1一个小的改变Δb1，它会在神经网络中起连锁反应，影响最后的C。

我们使用变化率∂c/∂b1～Δc/Δb1来估计梯度。接下来可以进行递推了。

先来计算Δb1对a1的影响。σ(z)为sigmoid函数。

结果正好是上面∂c/∂b1等式的第一项，然后影响下一层的输出。

将上面推导出来的两个式子联合起来，就得到b1对于z2的影响：

再和∂c/∂b1等式对比一下，惊喜！！

然后的推导就是完全一样了，每个neuron的导数，乘上w，最终得到C的变化量：

两边除以Δb1：

sigmoid导数图像：

sigmoid导数在0取得最大值1/4。

如果我们使用均值为0，方差为1的高斯分布初始化参数w，有|w| < 1,所以有：

可以看出随着网络层数的加深的term也会变多，最后的乘积会指数级衰减，

这就是梯度弥散的根本原因。

而有人要问在train的时候如果参数w变得足够大，就可能使|w|>1,就不满足了。

的确这样不会有梯度弥散问题，根据我们之前的分析，当|W|>1时，会使后面的layer参数指数级增加，从而引发梯度爆炸。

2.梯度爆炸（exploding gradient problem）：

当权值过大，前面层比后面层梯度变化更快，会引起梯度爆炸问题。

3.sigmoid时，消失和爆炸哪个更易发生？

量化分析梯度爆炸出现时a的树枝范围：因为sigmoid导数最大为1/4，故只有当abs(w)>4时才可能出现

由此计算出a的数值变化范围很小，仅仅在此窄范围内会出现梯度爆炸问题。而最普遍发生的是梯度消失问题。

4.如何解决梯度消失和梯度爆炸？

使用ReLU,maxout等替代sigmoid。

区别：（1）sigmoid函数值在[0,1],ReLU函数值在[0,+无穷]，所以sigmoid函数可以描述概率，ReLU适合用来描述实数；（2）sigmoid函数的梯度随着x的增大或减小和消失，而ReLU不会。

时间： 2024-11-02 14:24:22

神经网络（七）梯度弥散（消散）和梯度爆炸的相关文章

梯度弥散与梯度爆炸

问题描述先来看看问题描述. 当我们使用sigmoid funciton 作为激活函数时,随着神经网络hidden layer层数的增加,训练误差反而加大了,如上图所示. 下面以2层隐藏层神经网络为例,进行说明. 结点中的柱状图表示每个神经元参数的更新速率(梯度)大小,有图中可以看出,layer2整体速度都要大于layer1. 我们又取每层layer中参数向量的长度来粗略的估计该层的更新速率,得到下图. 可以看出,layer2的速率都要大于layer1. 然后我们继续加深神经网络的层数. 可以得

梯度弥散与梯度弥散

NN优化方法对比：梯度下降、随机梯度下降和批量梯度下降

1.前言这几种方法呢都是在求最优解中经常出现的方法,主要是应用迭代的思想来逼近.在梯度下降算法中,都是围绕以下这个式子展开: 其中在上面的式子中hθ(x)代表,输入为x的时候的其当时θ参数下的输出值,与y相减则是一个相对误差,之后再平方乘以1/2,并且其中注意到x可以一维变量,也可以是多维变量,实际上最常用的还是多维变量.我们知道曲面上方向导数的最大值的方向就代表了梯度的方向,因此我们在做梯度下降的时候,应该是沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解.这个θ的更新过程可以描

梯度下降法和随机梯度下降法的区别

这几天在看<统计学习方法>这本书,发现梯度下降法在感知机等机器学习算法中有很重要的应用,所以就特别查了些资料. 一.介绍梯度下降法(gradient descent)是求解无约束最优化问题的一种常用方法,有实现简单的优点.梯度下降法是迭代算法,每一步需要求解目标函数的梯度向量. 二.应用场景 1.给定许多组数据(xi, yi),xi (向量)为输入,yi为输出.设计一个线性函数y=h(x)去拟合这些数据. 2.感知机:感知机(perceptron)为二类分类

对数几率回归法（梯度下降法，随机梯度下降与牛顿法）与线性判别法(LDA)

本文主要使用了对数几率回归法与线性判别法(LDA)对数据集(西瓜3.0)进行分类.其中在对数几率回归法中,求解最优权重W时,分别使用梯度下降法,随机梯度下降与牛顿法. 代码如下: 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-05-09 15:03:50 4 # @Author : whb ([email protected]) 5 # @Link : ${link} 6 # @Version : $Id$

机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）

本文介绍了机器学习中基本的优化算法-梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式常见的符号说明和损失函数 X :所有样本的特征向量组成的矩阵 x(i) 是第i个样本包含的所有特征组成的向量x(i)=(x(i)1,x(i)2...,x(i)n) y(i) 第i个样本的label,每个样本只有一个label,y(i)是标量(一个数值) hθ(x(i)) :拟合函数,机器学习中可以用多种类型的拟合函数 θ 是函数变量,

梯度下降法、随机梯度下降法、小批量梯度下降法

本文以二维线性拟合为例,介绍批量梯度下降法.随机梯度下降法.小批量梯度下降法三种方法,求解拟合的线性模型参数. 需要拟合的数据集是 $(X_1, y_1), (X_2, y_2)..., (X_n, y_n)$,其中$X^i=(x_1^i, x_2^i)$,表示2个特征,$y^j$是对应的回归值. 拟合得到的函数是 $h_{\theta_1, \theta_2}(X)$,尽可能使${h_{{\theta _1},{\theta _2}}}(X) \approx y$. 损失函数是$J(\thet

神经网络与深度学习（2）：梯度下降算法和随机梯度下降算法

本文总结自<Neural Networks and Deep Learning>第1章的部分内容. 使用梯度下降算法进行学习(Learning with gradient descent) 1. 目标我们希望有一个算法,能让我们找到权重和偏置,以至于网络的输出y(x) 能够拟合所有的训练输入x. 2. 代价函数(cost function) 定义一个Cost function (loss function, objective function): 目标函数,如下: C: 被称为二次代价函数

梯度下降VS随机梯度下降

样本个数m,x为n维向量.h_theta(x) = theta^t * x梯度下降需要把m个样本全部带入计算,迭代一次计算量为m*n^2 随机梯度下降每次只使用一个样本,迭代一次计算量为n^2,当m很大的时候,随机梯度下降迭代一次的速度要远高于梯度下降