指数加权平均数

1. 什么是指数加权平均

指数加权平均(exponentially weighted averges),也叫指数加权移动平均,是一种常用的序列数据处理方式。

它的计算公式如下:

其中,

  • θ_t:为第 t 天的实际观察值,
  • V_t: 是要代替 θ_t 的估计值,也就是第 t 天的指数加权平均值,
  • β: 为 V_{t-1} 的权重,是可调节的超参。( 0 < β < 1 )

例如:

我们有这样一组气温数据,图中横轴为一年中的第几天,纵轴为气温:

直接看上面的数据图会发现噪音很多,

这时,我们可以用 指数加权平均 来提取这组数据的趋势,

按照前面的公式计算:

这里先设置 β = 0.9,首先初始化 V_0 = 0,然后计算出每个 V_t:

  

将计算后得到的 V_t 表示出来,就得到红色线的数值:

 

可以看出,红色的数据比蓝色的原数据更加平滑,少了很多噪音,并且刻画了原数据的趋势。

指数加权平均,作为原数据的估计值,不仅可以 1. 抚平短期波动,起到了平滑的作用,

 

可以看出,红色的数据比蓝色的原数据更加平滑,少了很多噪音,并且刻画了原数据的趋势。

指数加权平均,作为原数据的估计值,不仅可以 1. 抚平短期波动,起到了平滑的作用,

2. 为什么在优化算法中使用指数加权平均

上面提到了一些 指数加权平均 的应用,这里我们着重看一下在优化算法中的作用。

以 Momentum 梯度下降法为例,

Momentum 梯度下降法,就是计算了梯度的指数加权平均数,并以此来更新权重,它的运行速度几乎总是快于标准的梯度下降算法

这是为什么呢?

让我们来看一下这个图,

例如这就是我们要优化的成本函数的形状,图中红点就代表我们要达到的最小值的位置,

假设我们从左下角这里出发开始用梯度下降法,那么蓝色曲线就是一步一步迭代,一步一步向最小值靠近的轨迹。

可以看出这种上下波动,减慢了梯度下降法的速度,而且无法使用更大的学习率,因为如果用较大的学习率,可能会偏离函数的范围。

如果有一种方法,可以使得在纵轴上,学习得慢一点,减少这些摆动,但是在横轴上,学习得快一些,快速地从左向右移移向红点最小值,那么训练的速度就可以加快很多。

这个方法就是动量 Momentum 梯度下降法,它在每次计算梯度的迭代中,对 dw 和 db 使用了指数加权平均法的思想

这样我们就可以得到如图红色线的轨迹:

可以看到:
纵轴方向,平均过程中正负摆动相互抵消,平均值接近于零,摆动变小,学习放慢。
横轴方向,因为所有的微分都指向横轴方向,因此平均值仍然较大,向最小值运动更快了。
在抵达最小值的路上减少了摆动,加快了训练速度。

3. β 如何选择?

根据前面的计算式子:

将 V_{100} 展开得到:

这里可以看出,V_t 是对每天温度的加权平均,之所以称之为指数加权,是因为加权系数是随着时间以指数形式递减的,时间越靠近,权重越大,越靠前,权重越小。

再来看下面三种情况:

当 β = 0.9 时,指数加权平均最后的结果如图红色线所示,代表的是最近 10 天的平均温度值;

当 β = 0.98 时,指结果如图绿色线所示,代表的是最近 50 天的平均温度值;

当 β = 0.5 时,结果如下图黄色线所示,代表的是最近 2 天的平均温度值;

β 越小,噪音越多,虽然能够很快的适应温度的变化,但是更容易出现奇异值。

β 越大,得到的曲线越平坦,因为多平均了几天的温度,这个曲线的波动更小。

但有个缺点是,因为只有 0.02 的权重给了当天的值,而之前的数值权重占了 0.98 ,

曲线进一步右移,在温度变化时就会适应地更缓慢一些,会出现一定延迟。

通过上面的内容可知,β 也是一个很重要的超参数,不同的值有不同的效果,需要调节来达到最佳效果,一般 0.9 的效果就很好

原文地址:https://www.cnblogs.com/lijie-blog/p/10184455.html

时间: 2025-01-17 10:47:44

指数加权平均数的相关文章

天池新人实战赛之[离线赛]-指数加权平均

大赛链接 https://tianchi.aliyun.com/getStart/information.htm?spm=5176.100067.5678.2.6d75153cK2qkgK&raceId=231522 总之,就是给你一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),然后去判断这些用户在(12.19)对商品子集(P)的购买数据 刚看到这个题目,一头雾水,哪些是训练集?怎么测试? 结合一般的购物习惯,用户把商品加入购物车以后的当天或者第二天是最可能产生购买行

SGD的动量(Momentum)算法

引入动量(Momentum)方法一方面是为了解决“峡谷”和“鞍点”问题:一方面也可以用于SGD 加速,特别是针对高曲率.小幅但是方向一致的梯度. 如果把原始的 SGD 想象成一个纸团在重力作用向下滚动,由于质量小受到山壁弹力的干扰大,导致来回震荡:或者在鞍点处因为质量小速度很快减为 0,导致无法离开这块平地. 动量方法相当于把纸团换成了铁球:不容易受到外力的干扰,轨迹更加稳定:同时因为在鞍点处因为惯性的作用,更有可能离开平地. 动量方法以一种廉价的方式模拟了二阶梯度(牛顿法) Momentum

时间序列 R 08 指数平滑 Exponential smoothing

1.1 简单指数平滑 "simple exponential smoothing" (SES) SES适用于不计趋势与季节性的时间序列 我们在可以使用平均值模型和naive模型来做粗略的预测(点击查看),他们懂预测方法分别是 - 使用最后一个值(naive模型) - 使用前面值的平均数(平均值) 这里的简单指数平滑是用的前面几个值的加权平均数,越靠近最后的权重越大,后面的权重指数下降 SES的公式如下 y^T+1|T=αyT+α(1?α)yT?1+α(1?α)2yT?2+? α就是平滑

从指数分布族去推导出广义线性模型

指数分布族的定义: 若一类概率分布可以写成如下形式,那么它就属于指数分布族: η - 自然参数,通常是一个实数 T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识) 对于给定的a,b,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布.极限定理得) 记录一下几个指数分布族以及它们的特征: 正态分布(高斯分布)--总体噪音(由中心极限定理得) 伯努利分布--逻辑回归(对01问题建模) 多项式分布--K种结果的事情进行建模 泊松

Win8.1 查看 “Windows 体验指数“

啥是 Windows 体验指数 ? 引用MS的介绍: http://windows.microsoft.com/zh-cn/windows7/products/features/windows-experience-index http://windows.microsoft.com/zh-cn/windows/what-is-windows-experience-index#What-is-windows-experience-index=windows-8 Windows Experienc

水质评价---2综合水质标识指数法

综合水质标识指数评价法分单因子水质标识指数和综合水质标识指数两步进行. 单因子水质标识指数P由一位整数.小数点后2位或3位有效数字组成,表示为P=x1.x2x3.x1代表第i项水质指标的水质类别;x2代表监测数据在x1类水质变化区间中所处的位置,根据公式按四舍五入的原则计算确定;x3代表水质类别与功能区划设定类别的比较结果,表示评价指标的污染程度,1位或2位有效数字.    当水质介于Ⅰ类水和Ⅴ类水之间时,可以根据水质监测数据与国家标准的比较确定x1,其意义为:x1=1,表示该指标为Ⅰ类水;x1

时间序列分析之一次指数平滑法

指数平滑法最早是由C.C Holt于1958年提出的,后来经统计学家深入研究使得指数平滑法非常丰富,应用也相当广泛,一般有简单指数平滑法.Holt双参数线性指数平滑法.Winter线性和季节性指数平滑法.这里的指数平滑法是指最简单的一次指数平滑. 指数平滑法是一种特殊的加权平均法,对本期观察值和本期预测值赋予不同的权重,求得下一期预测值的方法. 一次指数平滑法公式如下:  ————————-(1)  为t+1期的指数平滑趋势预测值: 为t期的指数平滑趋势预测值: 为t期实际观察值: 为权重系数,

二次指数平滑预测法 Python实现

从以往的时间序列值,进行指数平滑,做两次预测出下一个时间的估计值. 目录结构如下: Python代码如下: forecast.py # -*-coding:utf-8 -*- # Time:2015.11.25 sangjin __author__ = 'hunterhug' import matplotlib #matplotlib.use("Agg") #matplotlib.use("TkAgg") #matplotlib.use("gtk"

决策树-预测隐形眼镜类型 (ID3算法,C4.5算法,CART算法,GINI指数,剪枝,随机森林)

1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26. 女儿:长的帅不帅? 母亲:挺帅的. 女儿:收入高不? 母亲:不算很高,中等情况. 女儿:是公务员不? 母亲:是,在税务局上班呢. 女儿:那好,我去见见. 决策过程: 这个女孩的决策过程就是典型的分类树决策.