深度之眼PyTorch训练营第二期 --- 8、权值初始化

一、梯度消失与爆炸

二、Xavier方法与Kaiming方法

1、Xavier初始化

方差一致性：保持数据尺度维持在恰当范围，通常方差为1

激活函数：饱和函数，如Sigmoid，Tanh

三、常用初始化方法

10种：

Xavier均匀分布、正态分布

Kaiming均匀分布、正态分布

均匀分布、正态分布、常数分布

正交矩阵初始化

单位矩阵初始化

稀疏矩阵初始化

nn.init.Calculate_gain

主要功能：计算激活函数的方差变化尺度

主要参数

nonlinearity：激活函数名

param：激活函数的参数，如Leaky ReLU的negative_slop

原文地址：https://www.cnblogs.com/cola-1998/p/11818008.html

时间： 2024-07-30 21:14:52

深度之眼PyTorch训练营第二期 --- 8、权值初始化的相关文章

深度之眼PyTorch训练营第二期 ---2、张量操作与线性回归

一.张量的操作:拼接.切分.索引和变换 1.拼接 (1)torch.cat() 功能:将张量按照维度dim进行拼接(不会扩张) tensors:张量序列 dim:要拼接的维度 (2)torch.stack() 功能:在新创建的维度dim上进行拼接(会扩张张量的维度) tensors:张量序列 dim:要拼接的维度 (3)torch.chunk() 功能:将张量按维度dim进行平均切分返回值:张量列表注意:若不能整除,最后一份张量小于其他张量 input:要切分的张量 chunk

深度之眼PyTorch训练营第二期 ---3、计算图与动态图机制

一.计算图 1.计算图是用于描述运算的有向无环图. 主要有两个元素:结点(Node).边(edge) 结点表示数据,如向量.矩阵.张量边表示运算,如加减乘除卷积等例子:用计算图表示 y = (x + w) * (w + 1) 拆分:a = x + w b = w + 1 ---> y = a * b 2.计算图与梯度求导 =b * 1 + a * 1 =b + a =(w+1) + (x+w) =2*w + x + 1 =2 * 1 + 2 + 1 =5 y到w所有路径 3.叶子结点

深度之眼PyTorch训练营第二期 ---基础数据结构-张量

一.Tensor概念张量:多维数组,标量.向量.矩阵的高维拓展 Tensor与Variable torch.autograd.Variable:数据类型,主要用于封装Tensor,进行自动求导,五个属性: data:被包装的Tensor grad:data的梯度 grad_fn:创建Tensor的Function,自动求导的关键 requires_grad:指示是否需要梯度 is_leaf:指示是否是叶子结点(张量) PyTorch0.4.0之后,Variable并入Tensor dtype:

深度之眼PyTorch训练营第二期 ---5、Dataloader与Dataset

一.人民币二分类描述:输入人民币,通过模型判定类别并输出. 数据:四个子模块数据收集 -> img,label 原始数据和标签数据划分 -> train训练集 valid验证集 test测试集数据读取 -> DataLoader ->(1)Sampler(生成index) (2)Dataset(读取Img,Label) 数据预处理 -> transforms 1.DataLoader torch.utils.data.DataLoader 功能:构建可迭代的数据装载

激活函数与权值初始化

1.sigmod函数--(tf.nn.sigmoid()) sigmod函数性质: 1.如图像所示其值域在[0,1]之间,函数输出不是0均值的,权重更新效率降低,因为这会导致后层的神经元的输入是非0均值的信号,这会对梯度产生影响:假设后层神经元的输入都为正(e.g. x>0 elementwise in ),那么对w求局部梯度则都为正,这样在反向传播的过程中w要么都往正方向更新,要么都往负方向更新,导致有一种捆绑的效果,使得收敛缓慢. 当然了,如果你是按batch去训练,那么每个batch可能得

神经网络中的权值初始化方法

1,概述神经网络中的权值初始化方法有很多,但是这些方法的设计也是遵循一些逻辑的,并且也有自己的适用场景.首先我们假定输入的每个特征是服从均值为0,方差为1的分布(一般输入到神经网络的数据都是要做归一化的,就是为了达到这个条件). 为了使网络中的信息更好的传递,每一层的特征的方差应该尽可能相等,如果保证这个特征的方差是相等的呢.我们可以从初始化的权重值入手. 首先来做一个公式推导: $var(s) = var(\sum_i^n w_i x_i)$ $var(s) = \sum_i^n var(w

caffe中权值初始化方法

首先说明:在caffe/include/caffe中的 filer.hpp文件中有它的源文件,如果想看,可以看看哦,反正我是不想看,代码细节吧,现在不想知道太多,有个宏观的idea就可以啦,如果想看代码的具体的话,可以看:http://blog.csdn.net/xizero00/article/details/50921692,写的还是很不错的(不过有的地方的备注不对,不知道改过来了没). 文件 filler.hpp提供了7种权值初始化的方法,分别为:常量初始化(constant).高斯分布初

神经网络中权值初始化的方法

from:http://blog.csdn.net/u013989576/article/details/76215989 权值初始化的方法主要有:常量初始化(constant).高斯分布初始化(gaussian).positive_unitball初始化.均匀分布初始化(uniform).xavier初始化.msra初始化.双线性初始化(bilinear) 常量初始化(constant) 把权值或者偏置初始化为一个常数,具体是什么常数,可以自己定义高斯分布初始化(gaussian) 需要给定

NOIP2014提高组第二题联合权值

还是先看题吧: 试题描述无向连通图 G 有 n 个点,n-1 条边.点从 1 到 n 依次编号,编号为 i 的点的权值为 Wi ,每条边的长度均为 1.图上两点(u, v)的距离定义为 u 点到 v 点的最短距离.对于图 G 上的点对(u, v),若它们的距离为 2,则它们之间会产生Wu * Wv 的联合权值.请问图 G 上所有可产生联合权值的有序点对中,联合权值最大的是多少?所有联合权值之和是多少? 输入第一行包含 1 个整数 n.接下来 n-1 行,每行包含 2 个用空格隔开的正整数