深度学习面试题08：梯度消失与梯度爆炸

目录

　　梯度消失

　　梯度爆炸

　　参考资料

以下图的全连接神经网络为例，来演示梯度爆炸和梯度消失：

梯度消失

在模型参数w都是(-1,1)之间的数的前提下，如果激活函数选择的是sigmod(x)，那么他的导函数σ’(x)的值域为(0,0.25]，即如下三项的范围都是(0,0.25]

那么w1的导数会有很多(0,0.25]范围的数累乘，就会造成w1的导数很小，这就是梯度消失。梯度消失的后果就是，w1的更新就会很慢，使得神经网络的学习变得很慢。

解决方法：使用relu(x)这样的激活函数，因为他的导函数的值可以稳定在1，累乘后不会让梯度消失。

返回目录

梯度爆炸

如果模型参数不是(-1,1)之间的数，比如是50，对w1求导时，就会出现很多大的数的累乘，更新参数会出现问题，无法完成网络学习

解决方法：合理的初始化模型参数

返回目录

参考资料

对于梯度消失和梯度爆炸的理解

https://www.cnblogs.com/pinking/p/9418280.html

《图解深度学习与神经网络：从张量到TensorFlow实现》_张平

返回目录

原文地址：https://www.cnblogs.com/mfryf/p/11381215.html

时间： 2024-10-09 13:17:59

深度学习面试题08：梯度消失与梯度爆炸的相关文章

【深度学习系列】DNN中梯度消失和梯度爆炸的原因推导

DNN中梯度消失和梯度爆炸的原因推导因为手推涉及很多公式,所以这一截图放出. 原文地址:https://www.cnblogs.com/Elaine-DWL/p/11140917.html

深度学习面试题27：非对称卷积(Asymmetric Convolutions)

目录产生背景举例参考资料产生背景之前在深度学习面试题16:小卷积核级联卷积VS大卷积核卷积中介绍过小卷积核的三个优势: ①整合了三个非线性激活层,代替单一非线性激活层,增加了判别能力. ②减少了网络参数. ③减少了计算量在<Rethinking the Inception Architecture for Computer Vision>中作者还想把小卷积核继续拆解,从而进一步增强前面的优势返回目录举例一个3*3的卷积可以拆解为:一个3*1的卷积再串联一个1*3的卷积,实验证

深度学习面试题29：GoogLeNet(Inception V3)

目录使用非对称卷积分解大filters 重新设计pooling层辅助构造器使用标签平滑参考资料在<深度学习面试题20:GoogLeNet(Inception V1)>和<深度学习面试题26:GoogLeNet(Inception V2)>中对前两个Inception版本做了介绍,下面主要阐述V3版本的创新点使用非对称卷积分解大filters InceptionV3中在网络较深的位置使用了非对称卷积,他的好处是在不降低模型效果的前提下,缩减模型的参数规模,在<深度学

深度学习面试题13：AlexNet(1000类图像分类)

目录网络结构两大创新点参考资料第一个典型的CNN是LeNet5网络结构,但是第一个引起大家注意的网络却是AlexNet,Alex Krizhevsky其实是Hinton的学生,这个团队领导者是Hinton,于2012年发表论文. AlexNet有60 million个参数和65000个神经元,五层卷积,三层全连接网络,最终的输出层是1000通道的softmax.AlexNet利用了两块GPU进行计算,大大提高了运算效率,并且在ILSVRC-2012竞赛中获得了top-5测试的15.3%

对于梯度消失和梯度爆炸的理解

一.梯度消失.梯度爆炸产生的原因假设存在一个网络结构如图: 其表达式为: 若要对于w1求梯度,根据链式求导法则,得到的解为: 通常,若使用的激活函数为sigmoid函数,其导数: 这样可以看到,如果我们使用标准化初始w,那么各个层次的相乘都是0-1之间的小数,而激活函数f的导数也是0-1之间的数,其连乘后,结果会变的很小,导致梯度消失.若我们初始化的w是很大的数,w大到乘以激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,形成梯度爆炸. 当然,若对于b求偏导的话,其实也是一个道理:

深度学习面试题21：批量归一化(Batch Normalization,BN)

目录 BN的由来 BN的作用 BN的操作阶段 BN的操作流程 BN可以防止梯度消失吗为什么归一化后还要放缩和平移 BN在GoogLeNet中的应用 BN在GoogLeNet中的应用 BN的由来 BN是由Google于2015年提出,论文是<Batch Normalization_ Accelerating Deep Network Training by Reducing Internal Covariate Shift>,这是一个深度神经网络训练的技巧,主要是让数据的分布变得一致,从而使得

深度学习面试题20：GoogLeNet(Inception V1)

目录简介网络结构对应代码网络说明参考资料简介 2014年,GoogLeNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄,GoogLeNet获得了第一名.VGG获得了第二名,这两类模型结构的共同特点是层次更深了.VGG继承了LeNet以及AlexNet的一些框架结构,而GoogLeNet则做了更加大胆的网络结构尝试,虽然深度只有22层,但大小却比AlexNet和VGG小很多,GoogleNet参数为500万个,AlexNet参数个数是GoogleNet的12倍,VG

深度学习面试题12：LeNet(手写数字识别)

目录神经网络的卷积.池化.拉伸 LeNet网络结构 LeNet在MNIST数据集上应用参考资料 LeNet是卷积神经网络的祖师爷LeCun在1998年提出,用于解决手写数字识别的视觉任务.自那时起,CNN的最基本的架构就定下来了:卷积层.池化层.全连接层.如今各大深度学习框架中所使用的LeNet都是简化改进过的LeNet-5(-5表示具有5个层),和原始的LeNet有些许不同,比如把激活函数改为了现在很常用的ReLu. 神经网络的卷积.池化.拉伸前面讲了卷积和池化,卷积层可以从图像中提取特

深度学习面试题16：小卷积核级联卷积VS大卷积核卷积

目录感受野多个小卷积核连续卷积和单个大卷积核卷积的作用相同小卷积核的优势参考资料感受野在卷积神经网络中,感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小.再通俗点的解释是,特征图上的一个点对应输入图上的区域,如下图所示: 返回目录多个小卷积核连续卷积和单个大卷积核卷积的作用相同像LeNet.AlexNet网络,都是用了较大的卷积核,目的是提取出输入图像更大邻域范围的信息,一般是卷积与池化操

猜你喜欢

套路还在——MOOC视频的指针

入职前就给安排了MOOC视频,其中看到了关于指针的几段. struct aa{ int tmp; }; struct aa* fun(aa* t) { struct aa tt = {100}; t ...

RTTI与反射之Java

一.引言很多时候我们的程序可能需要在运行时识别对象和类的信息,比如多态就是基于运行时环境进行动态判断实际引用的对象.在运行时识别对象和类的信息主要有两种方式:1.RTTI,具体是Class对象,它假 ...

C#异常小知识

C#中异常捕获相信大家都很熟悉,经常使用的异常捕获有: 1. try{.....} catch (Exception ex) {throw ex;} 2. try{.....} catch (Exce ...

Akka（21）： Stream：实时操控：人为中断-KillSwitch

akka-stream是多线程non-blocking模式的,一般来说,运算任务提交到另外线程后这个线程就会在当前程序控制之外自由运行了.任何时候如果需要终止运行中的数据流就必须采用一种任务柄(han ...

从头认识Spring-1.7 怎样通过属性注入Bean？（2）-怎样通过属性向对象注入另一个对象的引用？

这一章节我们继续上面的话题. 2.怎样通过属性向对象注入另一个对象的引用? (1)domain 我们除了蛋糕类,还需要引用前面的厨师类 package com.raylee.my_new_spring ...

bzoj1006 神奇的国度

Description K国是一个热衷三角形的国度,连人的交往也只喜欢三角原则.他们认为三角关系:即AB相互认识,BC相互认识,CA相互认识,是简洁高效的.为了巩固三角关系,K国禁止四边关系,五边关系 ...

usaco题目分享——Longest Prefix

Longest PrefixIOI'96 The structure of some biological objects is represented by the sequence of thei ...

如何养成良好的Linux操作习惯

开始Linux的学习之后,请不要用Windows的工作方式来思考问题,因为它们之间确实有很大的不同,比如它们之间的内存管理机制.进程运行机制等都有很大不同,因此抛开Windows的那种思维,用全新的理 ...

linux c select函数使用求解释

代码很简单,就是发送c语言发送http请求,但 i= read(sockfd, buf, BUFSIZE-1); 可以正常运行, 替换为i= Read(sockfd, buf, BUFSIZE-1); ...

python业务更新程序

开发动机: 作为一名专业的运维人员,面对业务系统更新是再正常不过得了,但是面对每周两次以上,并且都要在晚上才可以做到的更新,作为一名有远大理想并时刻想变技术方面的"糕富帅"的男人, ...

静态单链表和动态单链表的区别

链表中结点的分配和回收是由系统提供的标准函数malloc和free动态实现的,称之为动态链表. 如果程序支持指针,则可按照我们的一般形式实现链表, 需要时分配,不需要时回收即可. 动态链表的空间是可以 ...

UVA120（煎饼）

这个题唯一坑爹的地方就是UVA给的udebug数据是错的,害得我头疼了半天... 思路就是依次找最大的数把它转到最低端,每次执行的时候判断一下是否已经符合题意,符合则跳出循环. 1 #include ...

Android 中自定义View的初步总结

概述在开发过程中,经常会遇到系统中提供的控件无法满足产品的设计需求,这时可能就需要考虑使用自定义的View来实现产品的设计细节了.对于自定义View,可以分为两种,一种是自定义控件(继承View), ...

Linux常用命令汇总--cat

1.功能:用户合并文件和将文件打印到屏幕上 2.用法:cat [选项] 文件 3.参数:基本没用过那些参数 4.cat的三大功能功能1:一次显示整个文件:cat filename [[email p ...

Open_POJ C15C Rabbit's Festival

http://poj.openjudge.cn/practice/C15C?lang=en_US n 点 m 边 k 天. 每条边在某一天会消失(仅仅那一天消失). 问每一天有多少对点可以相互到达. ...

【STL容器学习笔记】-顺序容器

STL提供了三个顺序容器:vector.list和deque.Vector和deque都是用数组来实现的,list是用链表来实现的.关于三者的实现原理和各自应用的场景我们做一下分析. 1.vector ...

Java中WebService实例

Web Services是由企业公布的完毕其特定商务需求的在线应用服务,其它公司或应用软件可以通过Internet来訪问并使用这项在线服务. Web Service的关键技术和规则: 1.XML:描写 ...

Java的I/O流问题

一.流的概念流(stream)的概念源于UNIX中管道(pipe)的概念.在UNIX中,管道是一条不间断的字节流,用来实现程序或进程间的通信,或读写外围设备.外部文件等. 一个流,必有 ...

正則表達式，推断一串字符串里面包括一定的形式，并解析成图片

这个事写qq表情的时候用到的,单独拿出来讲讲. 首先图片0到106张放在res里面,命名为F000到F106 如图此时在程序里面定义一个方法 public void setData(String m ...

Linux虚拟文件系统VFS解析

参考<Linux内核设计与实现> 虚拟文件系统(VFS)是linux内核和具体I/O设备之间的封装的一层共通访问接口,通过这层接口,linux内核可以以同一的方式访问各种I/O设备. 虚拟 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.