Twitter基于R语言的时序数据突变检测（BreakoutDetection）

Twitter开源的时序数据突变检测（BreakoutDetection）,基于无参的E-Divisive with Medians (EDM)算法，比传统的E-Divisive算法快3.5倍以上，并且具有鲁棒统计性，就是你加入一些离群点或异常点，并不影响该算法的检测效果，不过最关键的还是无参特性，有时候调参真是件摸着石头过河的事。

它认为突变有两种方式：

1.Mean Shift：突然跳变，比如CPU从40%一跃跳变为60%，像佛教里讲的“顿宗”

2.Ramp Up：缓慢从一个平稳状态渐变到另一个平稳状态，比如CPU从40%平稳缓慢渐变为60%并平稳，像佛教里讲的“渐宗”

项目源代码（提交后好像就不更新了）：https://github.com/twitter/BreakoutDetection/

其他针对该算法的讲解（可能需要梯子）：

https://blog.revolutionanalytics.com/2014/11/breakout-detection.html

https://blog.twitter.com/2014/breakout-detection-in-the-wild

https://anomaly.io/anomaly-detection-using-twitter-breakout/

【注】https://anomaly.io/真的挺不错，需要持续关注其中的博客

视频：

https://www.youtube.com/watch?v=fcsyL5TwIvE

“鲁棒统计”

Robust Statistics：A minor error[the anomaly] in the mathematical model should cause only a small error in the final conclusions

[moving median] 属于鲁棒统计，[moving average]不属于鲁棒统计

https://anomaly.io/moving-median-robust-anomaly/

原文地址：https://www.cnblogs.com/liugh/p/9955692.html

时间： 2024-11-09 03:55:51

Twitter基于R语言的时序数据突变检测（BreakoutDetection）的相关文章

中文分词实践（基于R语言）

背景:分析用户在世界杯期间讨论最多的话题. 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下: 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下. ================================================== * 中文分词常用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallse

R语言笔记之数据篇

R语言杂七杂八与R语言有关的应用工具探索性数据分析统计推断回归分析机器学习-分类问题 R与Rstudio的获取与安装包package一种扩展R基本功能的机制集成了众多函数获取包导入包libraryname 获取帮助 R语言特点 R语言语法基础之数据篇 R语言中的数据 R语言支持的数据类型基本数据结构一维数据类型向量 vocter 1创建 2提取子集因子 factor 1创建 2提取子集二维数据类型矩阵 matrix 1生成矩阵 1matrix方法 2 修改dim属性来

逻辑回归算法实现_基于R语言

逻辑回归(Logistic Regression)模型和线性回归非常相似,可以说就是在逻辑回归的基础上加上了一步逻辑转换,也就是因为这个转换,使逻辑回归模型非常适用于二分类问题的概率预测.本文主要详述逻辑回归模型的基础以及逻辑回归模型的R语言实现. 一.逻辑回归模型原理首先要讲一下线性回归在预测分类事件中的缺点:线性回归模型的泛化能力很差,如果训练集存在噪点,会导致模型的结果特别差,不同样本建立起来的模型分割点不同:下图中根据年龄预测是否成年的分类问题,斜线就是根据训练集拟合出来的线性回归模型

R语言读取文件数据

R语言读取文件数据 ??1.read.table()函数 2.其他函数的缺省 read.csv(file, header = TRUE, sep = ",", quote="\"", dec=".",fill = TRUE, ...)read.csv2(file, header = TRUE, sep = ";", quote="\"", dec=",",fill =

[译]用R语言做挖掘数据《二》

数据探索一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程[Vim编辑器](http://www.shiyanlou.com/courses/2)3. R:在命令行输入‘R’ 进入R语言

分享《深度学习精要（基于R语言）》+PDF+源码+Joshua F.Wiley+高蓉

下载:https://pan.baidu.com/s/14UlxD5VJRY92UpP7Wr6Taw 更多最新的资料:http://blog.51cto.com/14087171 <深度学习精要(基于R语言)>高清中文版PDF+高清英文版PDF+源代码高清中文版PDF,带目录和书签,能够复制粘贴:高清英文版PDF,带目录和书签,能够复制粘贴:中英文两版可以对比学习. 配套源代码: 经典书籍,讲解详细: 其中高清中文版如图原文地址:http://blog.51cto.com/14087171

利用R语言进行交互数据可视化（转）

上周在中国R语言大会北京会场上,给大家分享了如何利用R语言交互数据可视化.现场同学对这块内容颇有兴趣,故今天把一些常用的交互可视化的R包搬出来与大家分享. rCharts包说起R语言的交互包,第一个想到的应该就是rCharts包.该包直接在R中生成基于D3的Web界面. rCharts包的安装 require(devtools) install_github('rCharts', 'ramnathv') rCharts函数就像lattice函数一样,通过formula.data指定数据源和绘图

利用R语言进行交互数据可视化

本文是本人受统计之都邀请写的一篇关于数据可视化的文章,感兴趣的同学可以上统计之都去查看. http://cos.name/2016/06/using-r-for-interactive-data-visualization/ 上周在中国R语言大会北京会场上,给大家分享了如何利用R语言交互数据可视化.现场同学对这块内容颇有兴趣,故今天把一些常用的交互可视化的R包搬出来与大家分享. rCharts包说起R语言的交互包,第一个想到的应该就是rCharts包.该包直接在R中生成基于D3的Web界面.

[译]用R语言做挖掘数据《七》

时间序列与数据挖掘一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器3. R:在命令行输入‘R’进入交互式环境,下面的代码都是在交互式环境运行4. 数据:在命令行终端输入以下命令: