3.1.7. Cross validation of time series data

3.1.7. Cross validation of time series data

Time series data is characterised by the correlation between observations that are near in time (autocorrelation). However, classical cross-validation techniques such as KFold and ShuffleSplit assume the samples are independent and identically distributed, and would result in unreasonable correlation between training and testing instances (yielding poor estimates of generalisation error) on time series data. Therefore, it is very important to evaluate our model for time series data on the “future” observations least like those that are used to train the model. To achieve this, one solution is provided by TimeSeriesSplit.

3.1.7.1. Time Series Split

TimeSeriesSplit is a variation of k-fold which returns first folds as train set and the th fold as test set. Note that unlike standard cross-validation methods, successive training sets are supersets of those that come before them. Also, it adds all surplus data to the first training partition, which is always used to train the model.

This class can be used to cross-validate time series data samples that are observed at fixed time intervals.

Example of 3-split time series cross-validation on a dataset with 6 samples:

>>>

>>> from sklearn.model_selection import TimeSeriesSplit

>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])
>>> y = np.array([1, 2, 3, 4, 5, 6])
>>> tscv = TimeSeriesSplit(n_splits=3)
>>> print(tscv)
TimeSeriesSplit(n_splits=3)
>>> for train, test in tscv.split(X):
...     print("%s %s" % (train, test))
[0 1 2] [3]
[0 1 2 3] [4]
[0 1 2 3 4] [5]

时间： 2024-08-06 16:05:42

3.1.7. Cross validation of time series data的相关文章

交叉验证(Cross Validation)原理小结

交叉验证是在机器学习建立模型和验证模型参数时常用的办法.交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏.在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓"交叉". 那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候.比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型.如果样本

R: Kriging interpolation and cross validation 克里金插值及交叉验证浅析

克里金插值的基本介绍可以参考ARCGIS的帮助文档[1]. 其本质就是根据已知点的数值,确定其周围点(预测点)的数值.最直观的方法就是找到已知点和预测点数值之间的关系,从而预测出预测点的数值.比如IDW插值方法,就是假设已知点和预测点的值跟它们相对距离成反比.克里金插值的精妙之处在于它不仅考虑了已知点和预测点的距离关系,还考虑了这些已知点之间的自相关关系. 如何衡量已知点之间的自相关关系呢?通常使用的就是半变异函数,其公式如下[1]: Semivariogram(distance h) = 0.

cross validation交叉验证

交叉验证是一种检测model是否overfit的方法.最常用的cross validation是k-fold cross validation. 具体的方法是: 1.将数据平均分成k份,0,1,2,,,k-1 2.使用1~k-1份数据训练模型,然后使用第0份数据进行验证. 3.然后将第1份数据作为验证数据.进行k个循环.就完成了k-fold cross validation 这个交叉验证的方法的特点是:所有的数据都参与了验证,也都参与了训练,没有浪费数据.

交叉验证的缺陷及改进（Cross Validation done wrong）

本文主要是对我们使用交叉验证可能出现的一个问题进行讨论,并提出修正方案. 本文地址:http://blog.csdn.net/shanglianlm/article/details/47207173 交叉验证(Cross validation)在统计学习中是用来估计你设计的算法精确度的一个极其重要的工具.本文主要展示我们在使用交叉验证时可能出现的一个问题,并提出修正的方法. 下面主要使用 Python scikit-learn 框架做演示. 先验理论(Theory first) 交叉验证将数据集

Cross Validation done wrong

Cross Validation done wrong Cross validation is an essential tool in statistical learning 1 to estimate the accuracy of your algorithm. Despite its great power it also exposes some fundamental risk when done wrong which may terribly bias your accurac

交叉验证（Cross Validation）

假设我们需要从某些候选模型中选择最适合某个学习问题的模型,我们该如何选择?以多元回归模型为例:,应该如何确定k的大小,使得该模型对解决相应的分类问题最为有效?如何在偏倚(bias)和方差(variance)之间寻求最佳的平衡点?更进一步,我们同样需要知道如何在加权回归模型中选择适当的波长参数,或者在基于范式的SVM模型中选择适当的参数C? 我们假设模型集合为有限集,我们的目的就是从这d个模型中,选择最有效的模型. 假设样本集为S,根据经验风险最小化原则(ERM),可能会使用这样的算法: 1.在S

关于K-fold cross validation 下不同的K的选择的疑惑？

在K-fold cross validation 下比较不同的K的选择对于参数选择(模型参数,CV意义下的估计的泛化误差)以及实际泛化误差的影响.更一般的问题,在实际模型选择问题中,选择几重交叉验证比较合适? 交叉验证的背景知识: CV是用来验证模型假设(hypothesis)性能的一种统计分析方法,基本思想是在某种意义下将原始数据进行分组,一部分作为训练集,一部分作为验证集,使用训练集对每个hypothesis进行训练,再用验证集对每个hypothesis的性能进行评估,然后选取性能最好的h

vehicle time series data analysis

以HADOOP为代表的云计算提供的只是一个算法运行环境,为大数据的并行计算提供了在现有软硬件水平下最好的(近似)方法,并不能解决大数据应用中的所有问题.从具体应用而言,通过物联网方式接入IT圈的数据供应商(Data Provider)所面临的首要问题是数据分析的算法,其次才是算法的并行计算. 以汽车厂商(OEM,Tire1,Vendor,TSP)为例,所面临的大数据问题在 4V(Volume,Velocity,Variety,Veracity/Value)中,最突出的差异是Velocity,即实

[Machine Learning with Python] Cross Validation and Grid Search: An Example of KNN

Train model: from sklearn.model_selection import GridSearchCV param_grid = [ # try 6 (3×2) combinations of hyperparameters {'n_neighbors': [3, 5, 7], 'weights': ['uniform','distance']} ] knn_clf = KNeighborsClassifier() # train across 3 folds, that's

猜你喜欢

IT解决_win10无法启动vc6++中文版问题

问题:很多同学使用win10系统安装好vc6++中文版后,启动出现以下类似的界面解决方案: 先下载一个英文版启动器下载链接:http://pan.baidu.com/s/1pLmJQEB 密码:z ...

mac 笔记

---恢复内容开始--- /* 因为外出mac 办公的时候越来越多,有时候4g wifi 流量告急,不得不寻找破解之道. */ 安装port& aircreak-ng sudo port in ...

最好的Java和Android开发IDE---IntelliJ IDEA使用技巧

转载请注明网址:http//:www.cnblogs.com/JohnTsai 以前一直使用的是Eclipse,听别人介绍说IDEA非常不错,也为了以后转Android studio铺垫下.就开始尝试 ...

hadoop2.4-single

(1)机器免登录ssh-keygen -t rsacd ~/.ssh/cat id_rsa.pub >> authorized_keyschmod 600 authorized_keys[ ...

[HDU] 迷宫城堡 HDU - 1269

迷宫城堡 HDU - 1269 时限: 1000MS 内存: 32768KB 64位IO格式: %I64d & %I64u 问题描述为了训练小希的方向感,Gardon建立了一座大城堡 ...

Eclipse和MyEclipse常出现的错误总结

1. Myeclipse中导入的项目中按住快捷键(ctrl)键进行联想时,无法联想.解决方案:(1)可能缺少jar包,导包:(2)找.project文件,在其中加入如下代码: Java代码收藏代码 ...

复利程序若干说明

程序已上传至https://www.github.com/zhengmingze/java.git 本程序包括3个类,即3大功能 1.单利计算类 2.复利计算类 3.逆向求本金类运行结果: 该程序核 ...

Swift备忘

三大类型:结构.枚举和类. 基础类型: 1.整数类型:Int8.Uint8.Int16.Uint16.Int32.Uint32.Int64.Uint64.Int.Uint 2.浮点类型:Float.D ...

No resource identifier found for attribute 'parentActivityName' in package 'android'

AndroidManifest.xml中代码如下: <pre name="code" class="java"><manifest xmlns ...

msyql 随机数函数使用

//更新key_6字段为随机产生的从300到1300的数字之间条件是fid= 844 UPDATE moo_form_data SET key_6 = FLOOR(300+(RAND() * 10 ...

BCD与GRUB

Win7 的引导分两部分:MBR 程序和 BCD (Vista 之前称为 NTLDR ,其实他们是一个东西,但改进了很多).MBR 程序就是 MBR 里面前 446 字节.Windows 每次用官方安 ...

mysql中生成时间维度表

利用mysql常用日期函数生成时间维度表,效率最高,最简单,无需其他的一些工具支持.生成结果示例如下图: # time span SET @d0 = "2012-01-01"; S ...

zabbix(1)--服务器端安装及配置

1.zabbix-server配置 zabbix版本选择LTS的3.0版本.server端OS版本为RHEL 6.5 配置zabbix仓库,进行yum安装zabbix ~]# cd /etc/yum. ...

linux菜鸟日记(5)

iptables详细语法及配置: SNAT:源地址转换DNAT:目标地址转换PNAT:端口地址转换 ----------------------------------iptables规则链路由以后 ...

leetcode_Find Peak Element

描述: A peak element is an element that is greater than its neighbors. Given an input array where num[ ...

java代码面试常见的算法-mark

摘要:面试也是一门学问,在面试之前做好充分的准备则是成功的必须条件,而程序员在代码面试时,常会遇到编写算法的相关问题,比如排序.二叉树遍历等等. 在程序员的职业生涯中,算法亦算是一门基础课程,尤其是在 ...

浏览器的标准模式和怪异模式

要想写出跨浏览器的CSS,必须知道浏览器解析CSS的两种模式:标准模式(strict mode)和怪异模式(quirks mode). 标准模式: 浏览器按W3C标准解析执行代码: 怪异模式: 使用浏 ...

[leedcode 233] Number of Digit One

Given an integer n, count the total number of digit 1 appearing in all non-negative integers less th ...

UVA11806【拉拉队】Cheerleaders-------2015年1月24日

1.题意描述本题大致意思是讲:给定一个广场,把它分为M行N列的正方形小框.现在给定有K个拉拉队员,每一个拉拉队员需要站在小框内进行表演.但是表演过程中有如下要求: (1)每一个小框只能站立一个拉拉队 ...

易无忧八字推断:(二) 初试翻译<<子平真诠>>部分章节到模板

<子平真诠>是八字中一个初级出门的书籍,,现以此为例,剖析一下将子平真诠中说涉及到的部分章节规则应用到普通的八字分析之中. 一．论十干十二支天地之间,一气而己.惟有动静,遂分阴阳.有老少 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.