R语言计算移动平均的方法

移动平均可以使时间序列变平滑,是典型的有序计算问题,其基本算法是:将N个连续的时间序列成员作为一个集合,计算该集合的平均值,并逐项推移该集合。下面用一个例子来说明R计算移动平均的方法。

案例描述:

数据框sales有两个字段:日期和当日销售额,需要计算三日移动平均值。具体算法是:求出前一日、当日、后一日的销售额平均值,并逐日推移。部分源数据如下:

    代码:

filter(sales$Amount/3, rep(1, 3))

    计算结果:

代码解读:

R语言可以用函数filter计算移动平均值,代码简短,非常方便。

函数filter虽然很方便,但初学者却不易理解。比如sales$Amount/3的本意是将Amount字段中的当前值除以3,但用在filter函数里却能将前后三个值相加再除以三。表达式rep(1,3)的值为[1,1,1],用在这里却能指定取数范围。另外,filter的函数名和参数名中既没有“平均”,也没有“移动”,许多R语言开发者都不知道它可以用来计算移动平均值。

事实上,函数filter是个通用的线性过滤器,它的作用不止计算移动平均值这么简单。其完整的函数说明如下:filter(x, filter, method= c("convolution", "recursive"),sides = 2,circular = FALSE, init)。

如果想改动一下算法,代码就会更难理解,比如要计算当日、前一日、前两日这三天的移动平均值,不能写成:filter(sales$Amount/3,rep(0,2)),而应该是filter(sales$Amount/3,rep(1,3), sides = 1)。


总结: R语言可以计算移动平均值,但代码难理解。

第三方解决方案

本案例也可以用Python、集算器、Perl等语言来实现。和R语言一样,这几种语言都可以进行数据的统计分析,都可以计算移动平均值,下面简单介绍Python和集算器的解决方案。

    Python(pandas)

Pandas是Python的第三方库函数,其基本数据类型仿照R中的数据框,具有很强的结构化数据处理能力,目前最新版本是0.14。代码如下:

pandas.stats.moments.rolling_mean(sales["Amount"],3)

rolling_mean这个函数名一目了然,即使刚接触pandas的开发者也能轻易查到这个函数,rolling_mean的用法也很简洁,第一个参数是被计算的序列,第二个参数是N日移动平均值中的N。

    集算器

集算器擅长以敏捷语法自由表达业务逻辑,其相对位置表达式可以方便地解决有序计算中的难题。代码所示:

sales.(Amount{-1,1}.avg())

代码中的{-1,1}表示相对区间,即前一日和后一日之间的三天。可以看到,使用相对区间可以直观地计算移动平均值,而且更加灵活。比如同样改动算法:计算当日、前一日、前两日这三天的移动平均值,集算器只需将区间改为{-2,0}。

相对区间是个集合,集算器还可以表达相对位置的元素,比如销售增长额可以用sales(Amount -Amount[-1])来直观计算,而R语言和Python就没这么好理解。

时间: 2024-07-29 20:50:02

R语言计算移动平均的方法的相关文章

安装R语言的包的方法

安装R语言的包的方法: 1. 在线安装 在R的控制台,输入类似install.packages("TSA")  # 安装 TSA install.packages("TSA", contriburl="url",  dependencies = TRUE) # 安装TSA 2. 手动安装(离线安装) 在Windows下: 下载对应的package.zip文件 打开R的菜单条->Packages->"Install packa

R语言-连接MySQL数据库方法

版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] R语言连接数据库常用的方法有2种: 1.使用R数据库接口 连接MySQL,使用RMySQL包,使用前RMySQL包要先安装. library(RMySQL) 连接方式有2种: (1)使用dbConnectconn <- dbConnect(MySQL(), dbname = "rmysql", username="rmysql", password="rmysql",

R语言基于树的方法:决策树,随机森林,套袋Bagging,增强树

原文链接:http://tecdat.cn/?p=9859 概观 本文是有关  基于树的  回归和分类方法的.用于分割预测变量空间的分割规则可以汇总在树中,因此通常称为  决策树  方法. 树方法简单易懂,但对于解释却非常有用,但就预测准确性而言,它们通常无法与最佳监督学习方法竞争.因此,我们还介绍了装袋,随机森林和增强.这些示例中的每一个都涉及产生多个树,然后将其合并以产生单个共识预测.我们看到,合并大量的树可以大大提高预测准确性,但代价是损失解释能力. 决策树可以应用于回归和分类问题.我们将

使用R语言计算均值,方差等

R语言对于数值计算很方便,最近用到了计算方差,标准差的功能,特记录. 数据准备 height <- c(6.00, 5.92, 5.58, 5.92) 1 计算均值 mean(height) [1] 5.855 2 计算中位数 median(height) [1] 5.92 3 计算标准差 sd(height) [1] 0.1871719 4 计算方差 var(height) [1] 0.03503333 5 计算两个变量之间的相关系数 cor(height,log(height)) [1] 0

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

这次,我们将使用k-Shape时间序列聚类方法检查与我们有业务关系的公司的股票收益率的时间序列. 执行环境如下. R:3.5.1 企业对企业交易和股票价格 在本研究中,我们将研究具有交易关系的公司的价格变化率的时间序列的相似性,而不是网络结构的分析.由于特定客户的销售额与供应商公司的销售额之比较大,当客户公司的股票价格发生变化时,对供应商公司股票价格的反应被认为更大. k-Shape k-Shape [Paparrizos和Gravano,2015]是一种关注时间序列形状的时间序列聚类方法.在我

[R语言]R语言计算unix timestamp的坑

R+mongo的组合真是各种坑等着踩 由于mongo中的时间戳普遍使用的是unix timestamp的格式,因此需要对每天的数据进行计算的时候,很容易就想到对timestamp + gap对方式来实现每天的时间范围. 但这时候就埋下了一个坑,这个坑就是计算精度的问题. ms级的时间戳长度是12位,R中会识别成1.421112+e12的格式.gap的则是 1000 * 60 * 60 *24 * i,数量级是10^8.两者相加,在取某个i的时候,会出现加出来的数据与下一天的timestamp对不

Windows中使用OpenBLAS加速R语言计算速度

在使用R的时候会发现R对CPU的利用率并不是很高,反正当我在使用R的时候,无论R做何种运算R的CPU利用率都只有百分子几,这就导致一旦计算量大的时候计算时间非常长,会给人一种错觉(R真的在计算吗?会不会我的程序死掉了?).今天,我看到了一篇博客介绍的方法,迫不及待的尝试了一下,只能说:太牛逼了!下面是我的测试截图: 前: 后: 可以看到,计算时间从247.97s(也就是4.14min)降到了11.22s,CPU利用率在R计算的时候飙到了100%. 实现上面的性能需要安装OpenBLAS,BLAS

R语言爬虫:CSS方法与XPath方法对比(表格介绍)

css 选择器与 xpath 用法对比 目标 匹配节点 CSS 3 XPath 所有节点 ~ * //* 查找一级.二级.三级标题节点 <h1>,<h2>,<h3> h1,h2,h3 //h1,//h2,//h3 所有的P节点 <p> p //p p节点的所有子节点 <p>标签下的所有节点 p > * //p/* 查找所有包含attr属性的li标签 <li attr="~"> li[attr] li[@att

R语言分析(一)-----基本语法

  一, R语言所处理的工作层: 解释一下: 最下面的一层为数据源,往上是数据仓库层,往上是数据探索层,包括统计分析,统计查询,还有就是报告 再往上的三层,分别是数据挖掘,数据展现和数据决策. 由上图可知,R语言是可以用于数据挖掘,数据展现,而后领导根据展现的数据来决策,R语言在数据展现的方面,拥有很强大的功能. 二,R语言的数据结构: 包括如下的几项:包括向量,矩阵,数组,数据框,列表和因子 1,向量: 创建向量的方法一共有三种,分别如下: 第一种,使用c()的这个方法: 由于博客中木有R语言