关于Increased rates of convergence through learning rate adaptation一文的理解

原文地址:http://www.researchgate.net/profile/Robert_Jacobs9/publication/223108796_Increased_rates_of_convergence_through_learning_rate_adaptation/links/0deec525d8f8dd5ade000000.pdf

  已经看了CNN,rbm,sae等网络及算法,所有网络在训练时都需要一个learning rate,一直以来都觉得这个量设为定值即可,现在才发现其实这个量也可以变更和学习。

  文章中提到的时最早的神经网络learning rate,不过我觉得对现在有启发作用。文中提出神经网络中,如果把error function看成是一个多变量函数,每个参数对应一个变量,那么这个函数在每个参数wi方向上变化的速度是不同的,并且如果error function不是圆形的话,负梯度方向并不是指向最小值的(这个画个椭圆做个切线就知道),因此应该采用不同的learning rate。

  随后提出了作者一种启发式的方法就是在神经网络中,如果一个参数每次的导数的符号保持不变,说明它一直沿正方向走,那么应该增大learning rate以达到更快地到达最小值点,如果一个参数每次的导数的符号经常变化,说明它已经越过了最小值点,在最小值点附近摆动,那么应该减小learning rate让它稳定。

  随后就是算法,一个是momentum方法,,这样前面的导数可以影响后面的参数变更,从而使一直沿一个方向走的参数的改变,否则减小参数的改变。

  第二种是delta-delta learning rule,这个ε(t+1)是根据

得出的,第二个式子的结果就是learning rate的导数,可以用sgd更新learning rate。但显然,这会有一个缺陷,结束第二个式子的结果是两个导数相乘,会比较小,所以这个方法不好,有个改进版的。

这个函数结合了那两个原则并且防止learning rate减到小于0,线性增加也不会增加的太快。

  希望本博客对别人有帮助,谢谢。

时间: 2024-08-05 19:34:15

关于Increased rates of convergence through learning rate adaptation一文的理解的相关文章

learning rate+feature +polynomial regression

well ,I have to say it's quite wise to trans cube into mutiple feature.Like you have y=2+3x+4x^2 +...and you choose to use y=a+3x1+4x2+....You have one feature ,but you rather more feature than cubed(three times).Also U have to use feature scaling ca

梯度下降实用技巧II之学习率 Gradient descent in practice II -- learning rate

梯度下降实用技巧II之学习率 Gradient descent in practice II -- learning rate 梯度下降算法中的学习率(learning rate)很难确定,下面介绍一些寻找的实用技巧.首先看下如何确定你的梯度下降算法正在正常工作:一般是要画出代价函数 和迭代次数之间的图像,如下图所示.如果随着迭代次数的增加不断下降,那么说明梯度下降算法工作的很好,当到达一定迭代次数后基本持平时,说明已经收敛了,可以选取此时的作为参数.一般选取一个数小于,如果下降的幅度小于,则认

machine learning (4)---learning rate

degugging:make sure gradient descent is working correctly cost function(J(θ)) of Number of iteration 运行错误的图象是什么样子的 运行正确的图象是什么样子的 how to choose learning rate(∂) 若learning rate太小 若learning rate太大 可供选择的一些learning rate值 如何选择最佳的learning rate

Batchsize与learning rate

https://www.zhihu.com/question/64134994 1.增加batch size会使得梯度更准确,但也会导致variance变小,可能会使模型陷入局部最优: 2.因此增大batch size通常要增大learning rate,比如batch size增大m倍,lr增大m倍或者sqrt(m)倍,但并不固定: 3.learning rate的增加通常不能直接增加太大,一般会通过warm up逐步增大: 4.warm up策略参考 Bag of Freebies for

TensorFlow使用记录 (三): Learning rate

file: tensorflow/python/training/learning_rate_decay.py 参考:tensorflow中常用学习率更新策略 神经网络中通过超参数 learning rate,来控制每次参数更新的幅度.学习率太小会降低网络优化的速度,增加训练时间:学习率太大则可能导致可能导致参数在局部最优解两侧来回振荡,网络不能收敛. tensorflow 定义了很多的 学习率衰减方式: 指数衰减 tf.train.exponential_decay() 指数衰减是比较常用的衰

Factorized Hidden Variability Learning For Adaptation Of Short Duration Language Identification Models

基于因子分解的隐层变量学习,应用于短语句语种识别模型的自适应 LFVs(Language Feature Vectors,语种特征向量)[11],与BSVs(Bottleneck Speaker Vectors)类似,即瓶颈特征 3.1. 神经元调制 由于说话人特性的变化反映在语音信号中,因此将表示说话人适应声学特性的特征拼接到特征中.如VTLN或fMLLR,是直接对声学特征进行操作的自适应方法.可以训练一个说话人自适应系统以基于说话人属性直接对输入特征进行转换,这样效果与基于i-Vector的

A Full Hardware Guide to Deep Learning

A Full Hardware Guide to Deep Learning Deep Learning is very computationally intensive, so you will need a fast CPU with many cores, right? Or is it maybe wasteful to buy a fast CPU? One of the worst things you can do when building a deep learning sy

【CS-4476-project 6】Deep Learning

AlexNet / VGG-F network visualized by mNeuron. Project 6: Deep LearningIntroduction to Computer Vision Brief Due date: Tuesday, December 6th, 11:55pm Project materials including starter code, training and testing data, and html writeup template: proj

Transfer learning & The art of using Pre-trained Models in Deep Learning

原文网址:  https://www.analyticsvidhya.com/blog/2017/06/transfer-learning-the-art-of-fine-tuning-a-pre-trained-model/ Introduction Neural networks are a different breed of models compared to the supervised machine learning algorithms. Why do I say so? Th