神经网络之dropout层

一：引言

　　因为在机器学习的一些模型中，如果模型的参数太多，而训练样本又太少的话，这样训练出来的模型很容易产生过拟合现象。在训练bp网络时经常遇到的一个问题，过拟合指的是模型在训练数据上损失函数比较小，预测准确率较高（如果通过画图来表示的话，就是拟合曲线比较尖，不平滑，泛化能力不好），但是在测试数据上损失函数比较大，预测准确率较低。

　　常用的防治过拟合的方法是在模型的损失函数中，需要对模型的参数进行“惩罚”，这样的话这些参数就不会太大，而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。因此在添加权值惩罚项后，应用梯度下降算法迭代优化计算时，如果参数theta比较大，则此时的正则项数值也比较大，那么在下一次更新参数时，参数削减的也比较大。可以使拟合结果看起来更平滑，不至于过拟合。

　　Dropout是hintion最近2年提出的；为了防止模型过拟合，Dropout可以作为一种trikc供选择。在hinton的论文摘要中指出，在每个训练批次中，通过忽略一半的特征检测器（让一半的隐层节点值为0），可以明显地减少过拟合现象。这种方式可以减少特征检测器间的相互作用，检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。

二 Dropout方法

训练阶段：

　　1.Dropout是在标准的bp网络的的结构上，使bp网的隐层激活值，以一定的比例v变为0，即按照一定比例v，随机地让一部分隐层节点失效；在后面benchmark实验测试时，部分实验让隐层节点失效的基础上，使输入数据也以一定比例（试验用20%）是部分输入数据失效（这个有点像denoising autoencoder），这样得到了更好的结果。

　　2.去掉权值惩罚项，取而代之的事，限制权值的范围，给每个权值设置一个上限范围；如果在训练跟新的过程中，权值超过了这个上限，则把权值设置为这个上限的值（这个上限值得设定作者并没有说设置多少最好，后面的试验中作者说这个上限设置为15时，最好；为啥？估计是交叉验证得出的实验结论）。

　　这样处理，不论权值更新量有多大，权值都不会过大。此外，还可以使算法使用一个比较大的学习率，来加快学习速度，从而使算法在一个更广阔的权值空间中搜索更好的权值，而不用担心权值过大。

测试阶段：

　　在网络前向传播到输出层前时隐含层节点的输出值都要缩减到（1-v）倍；例如正常的隐层输出为a，此时需要缩减为a（1-v）。

　　这里我的解释是：假设比例v=0.5，即在训练阶段，以0.5的比例忽略隐层节点；那么假设隐层有80个节点，每个节点输出值为1，那么此时只有40个节点正常工作；也就是说总的输出为40个1和40个0；输出总和为40；而在测试阶段，由于我们的权值已经训练完成，此时就不在按照0.5的比例忽略隐层输出，假设此时每个隐层的输出还是1，那么此时总的输出为80个1，明显比dropout训练时输出大一倍（由于dropout比例为0.5）；所以为了得到和训练时一样的输出结果，就缩减隐层输出为a（1-v）；即此时输出80个0.5，总和也为40.这样就使得测试阶段和训练阶段的输出“一致”了。（个人见解）

三 Dropout原理分析

　　Dropout可以看做是一种模型平均，所谓模型平均，顾名思义，就是把来自不同模型的估计或者预测通过一定的权重平均起来，在一些文献中也称为模型组合，它一般包括组合估计和组合预测。

　　Dropout中哪里体现了“不同模型”；这个奥秘就是我们随机选择忽略隐层节点，在每个批次的训练过程中，由于每次随机忽略的隐层节点都不同，这样就使每次训练的网络都是不一样的，每次训练都可以单做一个“新”的模型；此外，隐含节点都是以一定概率随机出现，因此不能保证每2个隐含节点每次都同时出现，这样权值的更新不再依赖于有固定关系隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。

　　这样dropout过程就是一个非常有效的神经网络模型平均方法，通过训练大量的不同的网络，来平均预测概率。不同的模型在不同的训练集上训练（每个批次的训练数据都是随机选择），最后在每个模型用相同的权重来“融合”，介个有点类似boosting算法。

http://m.blog.csdn.net/article/details?id=50890473

时间： 2024-10-10 16:45:59

神经网络之dropout层的相关文章

caffe中关于（ReLU层，Dropout层，BatchNorm层，Scale层）输入输出层一致的问题

在卷积神经网络中.常见到的激活函数有Relu层 layer { name: "relu1" type: "ReLU" bottom: "pool1" top: "pool1" }其中可选参数为:negative_slope:默认为0. 对标准的ReLU函数进行变化,如果设置了这个值,那么数据为负数时,就不再设置为0,而是用原始数据乘以negative_slope relu层有个很大的特点:bottom(输入)和top(输出)一

keras 添加L2正则和 dropout层

在某一层添加L2正则: from keras import regularizer model.add(layers.Dense(..., kernel_regularizer = regularizers(0.001),...)) 在某一层之后添加dropout层: model.add(layers.Dropout(0.5)) 原文地址:https://www.cnblogs.com/rising-sun/p/11625963.html

005-卷积神经网络01-卷积层

网络要做的步骤:(一个中国人,给中国人教学,为什么要写一堆英语?) 1, sample abatch of data(数据抽样) 2,it through the graph ,get loss(前向传播,得到损失值) 3,backprop to calculate the geadiets(反向传播计算梯度) 4,update the paramenters using the gradient(使用梯度更新参数) 卷积神经网络可以做的事情: 分类取回(推荐) 检测出(同事有分类和回归) 分

【python实现卷积神经网络】卷积层Conv2D实现（带stride、padding）

关于卷积操作是如何进行的就不必多说了,结合代码一步一步来看卷积层是怎么实现的. 代码来源:https://github.com/eriklindernoren/ML-From-Scratch 先看一下其基本的组件函数,首先是determine_padding(filter_shape, output_shape="same"): def determine_padding(filter_shape, output_shape="same"): # No paddin

【Network Architecture】SegNet论文解析（转）

文章来源: https://blog.csdn.net/fate_fjh/article/details/53467948 Introduction 自己制作国内高速公路label,使用SegNet训练高速公路模型,测试效果参考:http://mi.eng.cam.ac.uk/projects/segnet/tutorial.html SegNet是Cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,开放源码,基于caffe框架.SegNet基于FCN,修改VGG-16

1.4激活函数-带隐层的神经网络tf实战

激活函数激活函数----日常不能用线性方程所概括的东西左图是线性方程,右图是非线性方程当男生增加到一定程度的时候,喜欢女生的数量不可能无限制增加,更加趋于平稳在线性基础上套了一个激活函数,使得最后能得到输出结果常用的三种激活函数: 取值不同时得到的结果也不同常见激活函数图形 tensorflow中自带的激活函数举例: 添加隐层的神经网络 #添加隐层的神经网络结构 import tensorflow as tf def add_layer(inputs,in_size,out_size

深度学习原理与框架-递归神经网络-RNN网络基本框架(代码?) 1.rnn.LSTMCell(生成单层LSTM) 2.rnn.DropoutWrapper(对rnn进行dropout操作) 3.tf.contrib.rnn.MultiRNNCell(堆叠多层LSTM) 4.mlstm_cell.zero_state(state初始化) 5.mlstm_cell(进行LSTM求解)

问题:LSTM的输出值output和state是否是一样的 1. rnn.LSTMCell(num_hidden, reuse=tf.get_variable_scope().reuse) # 构建单层的LSTM网络参数说明:num_hidden表示隐藏层的个数,reuse表示LSTM的参数进行复用 2.rnn.DropoutWrapper(cell, output_keep_prob=keep_prob) # 表示对rnn的输出层进行dropout 参数说明:cell表示单层的lstm,o

神经网络之全连接层（线性层）

对于神经网络的全连接层,前面已经使用矩阵的运算方式实现过,本篇将引入tensorflow中层的概念, 正式使用deep learning相关的API搭建一个全连接神经网络.下面是全连接神经网络的结构图其中,x1,x2,x3为输入,a1,a2,a3为输出,运算关系如下: x1,x2,x3所在的层叫神经网络的输入层,a1,a2,a3所在的层叫神经网络的输出层,如果两层中间还有若干层,那么中间的这些层叫做隐藏层. 那么,如何使用tensorflow去创建这样的层呢?其实非常简单,只需要调用tf.ke

递归神经网络的不可思议的有效性 [ 译 / 转 ]

递归神经网络(Recurrent Neural Networks,RNNs)就像一种神奇的魔法.我至今仍对于我第一次训练递归网络记忆犹新.那个网络是被用于生成图像说明(Image Captioning)的.仅仅进行了几十分钟的训练,我的第一个模型(这个模型中相当一部分超参数都是我随意选取的)就开始能给图片生成看起来非常不错的描述,而这些描述基本上能称得上是有意义的.有时结果的质量和模型复杂度之间的关联性完全超出你的预期,而我的第一次实验就是一个例子.为什么当时这些训练结果看起来如此惊人?是因为大