神经网络更新参数的几种方法

梯度下降中,计算完各个参数的导数之后就需要更新参数值了,最常用的更新参数方法就是:

【SGD】:

  1. x += - learning_rate * dx

但是这种方法收敛速度非常慢,其实除了这个更新参数的方法,还有很多的方法可以进行参数更新。

【Momentum update】:

这个方法对于深度学习的网络参数更新往往有不错的效果。本质意思是,在更新新的参数的时候需要考虑前一个时刻的“惯性”,其更新参数如下:

  1. # Momentum update
  2. v = mu * v - learning_rate * dx # integrate velocity
  3. x += v # integrate position

上面计算方法和下面的等价(其中的ρ等价于上面的mu):

其中一般的,v初始为0,mu是优化参数,一般初始化参数为0.9,当使用交叉验证的时候,参数mu一般设置成[0.5,0.9,0.95,0.99],在开始训练的时候,梯度下降较快,可以设置mu为0.5,在一段时间后逐渐变慢了,mu可以设置为0.9、0.99。也正是因为有了“惯性”,这个比SGD会稳定一些。

【Nesterov Momentum】

这是一个和上面的Momentum update有点不一样的方法,这种方法最近得到了较为广泛的运用,对于凸函数,它有更为快的收敛速度。

计算公式:

  1. x_ahead = x + mu * v
  2. # evaluate dx_ahead (the gradient at x_ahead instead of at x)
  3. v = mu * v - learning_rate * dx_ahead
  4. x += v

其基本思路如下:(参考自各种优化方法的比较

首先,按照原来的更新方向更新一步(x_ahead,也就是棕色线),然后在该位置计算梯度值(也就是dx_ahead,红色线),然后用这个梯度值修正最终的更新方向(绿色线)。上图中描述了两步的更新示意图,其中蓝色线是标准momentum更新路径

【Adagrad】

adagrad是一种自适应学习率的更新方法,计算方法如下:

  1. <strong># Assume the gradient dx and parameter vector x
  2. cache += dx**2
  3. x += - learning_rate * dx / (np.sqrt(cache) + eps)</strong>

这个方法其实是动态更新学习率的方法,其中cache将每个梯度的平方和相加,而更新学习率的本质是,如果求得梯度距离越大,那么学习率就变慢,而eps是一个平滑的过程,取值通常在(10^-4~10^-8 之间)

【RMSprop】

RMSpro是还没有发布的方法,但是已经使用的额相当广泛,其和Adagrad的方法差不多,计算方法如下:

  1. <strong>cache = decay_rate * cache + (1 - decay_rate) * dx**2
  2. x += - learning_rate * dx / (np.sqrt(cache) + eps)</strong>

其中,decay_rate取值通常在[0.9,0.99,0.999]

【Adam】

adam现在已经被广泛运用了,adam的更新参数方法如下:

  1. <strong>m = beta1*m + (1-beta1)*dx
  2. v = beta2*v + (1-beta2)*(dx**2)
  3. x += - learning_rate * m / (np.sqrt(v) + eps)</strong>

 m,v一般初始化为0,而这篇论文中,eps取值为1e-8 beta1=0.9 beta2=0.9999

【几种常见参数更新方法的比较】:

时间: 2024-10-11 20:03:27

神经网络更新参数的几种方法的相关文章

探讨android更新UI的几种方法

作为IT新手,总以为只要有时间,有精力,什么东西都能做出来.这种念头我也有过,但很快就熄灭了,因为现实是残酷的,就算一开始的时间和精力非常充足,也会随着项目的推进而逐步消磨殆尽.我们会发现,自己越来越消极怠工,只是在无意义的敲代码,敲的还是网上抄来的代码,如果不行,继续找. 这就是项目进度没有规划好而导致的. 最近在做有关蓝牙的项目,一开始的进度都安排得很顺利,但是因为测试需要两部手机,而且还要是android手机,暑假已经开始了,同学们都回家了,加上我手机的蓝牙坏了,导致我的进度严重被打乱!而

Android 更新UI的两种方法——handler和runOnUiThread() - $firecat的代码足迹$ - 博客频道 - CSDN.NET

文章来源:http://www.2cto.com/kf/201302/190591.html Android 更新UI的两种方法——handler和runOnUiThread() 在Android开发过程中,常需要更新界面的UI.而更新UI是要主线程来更新的,即UI线程更新.如果在主线线程之外的线程中直接更新页面显示常会报错.抛出异常:android.view.ViewRoot$CalledFromWrongThreadException: Only the original thread th

二维数组作为函数参数的几种方法

#include <stdio.h> #define N 5 void fun1(int a[N][N]) { int i,j; for (i=0;i<N;i++) { for (j=0;j<N;j++) { if (i>j) { a[i][j]+=a[j][i]; a[j][i]=0; } } } } void fun2(int **a,int m,int n) { int i,j; for (i=0;i<m;i++) { for (j=0;j<n;j++) {

springmvc请求接收参数的几种方法

通过@PathVariabl注解获取路径中传递参数 转载请注明出处:springmvc请求接收参数的几种方法 代码下载地址:http://www.zuidaima.com/share/1751862044773376.htm JAVA [java] view plaincopy @RequestMapping(value= " /{id}/{str} " ) public ModelAndView helloWorld(@PathVariable String id, @PathVar

Android 更新UI的两种方法——handler和runOnUiThread(

Android 更新UI的两种方法——handler和runOnUiThread() 在Android开发过程中,常需要更新界面的UI.而更新UI是要主线程来更新的,即UI线程更新.如果在主线线程之外的线程中直接更新页面显示常会报错.抛出异常:android.view.ViewRoot$CalledFromWrongThreadException: Only the original thread that created a view hierarchy can touch its views

JSP页面间传递参数的5种方法

JSP页面间传递参数是经常需要使用到的功能,有时还需要多个JSP页面间传递参数.下面介绍一下实现的方法. (1)直接在URL请求后添加 如:< a href="thexuan.jsp?action=transparams&detail=directe">直接传递参数< /a> 特别的在使用response.sendRedirect做页面转向的时候,也可以用如下代码: response.sendRedirect("thexuan.jsp?acti

JS取地址栏参数的两种方法

第一种方法: function GetQueryString(name){ var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null)return unescape(r[2]); return null;} 第二种方法: function getParamValue(

Linux更新内核的三种方法

Centos内核升级的三种方法 在基于CentOS平台的工作过程中,难免有时需要升级或者降级内核以验证功能.调试性能或者更新整个系统.如果从头重新编译一个内核,由于现在内核特性越来越复杂,依赖的库或者工具也不少,加之重新编译耗时不菲,了解更新内核的多种方式就显得尤为必要.下面根据笔者最近的工作,总结了三种方法,供大家参考. 方法一 如果机器不能联网,可以下载现有内核包到本地机器,直接在本地更新 1.从http://ftp.scientificlinux.org/linux/scientific/

Android更新Ui的几种方法和见解

<代码里的世界> 用文字札记描绘自己 android学习之路 转载请保留出处 by Qiao http://blog.csdn.net/qiaoidea/article/details/45115047 1. 简述 先贴一个我们刚做Android开发时候最容易遇到的一个错误异常 AndroidRuntimeException :"Only the original thread that created a view hierarchy can touch its views&quo