【天池竞赛系列】资金流入流出预測思路

赛题地址:http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.VZW16k&raceId=3

登录就可以下载数据

题目一句话:依据13年7月到14年8月的申购赎回数据预測14年9月每一天的申购赎回数据。

算法问题:此题能够使用线性回归和时间序列预測,仅仅要特征好效果都还能够。我们使用的是R以下的随机森林+LM  。决赛仅仅有4次提交机会,第一次我们26名,后面每天都降,这些火箭简直太可怕了,最后天我们运气好稳定在了47名。后来问过那些火箭才知道他们使用的是STL时间序列预測,由于这种方法预測的值偏大。刚好答案也是偏大。所以会出现大量火箭。

预处理问题:题目给出的是每天用户的操作数据。我们须要按日期汇总为申购赎回数据,由于提交结果也是按天的

汇总下来好像是427条,观察之后能够发现13年到14年前期都不太稳定。所以我们能够取稳定后的数据,3-8或者4-8月都能够。

另外既然取了3-8月的数据,就代表没有去年国庆前期的数据了,这个问题比較大,由于须要预測14年9月的。9月末的数据跟13年9月的数据趋势有相关性。可是13年9月的数据变化比較剧烈,由于比赛不准单点。没法自己去插入14年9月30号这天的数据,怎么办呢?我们前期測了下20140930的值,和9月29的值比例大概是11:9-11:8的样子。所以我们手动在训练集中插入了一调20130930的申购赎回数据来拟合14年预測结果。不知道这样还算不算调单点?

特征问题:官方给出的baseline是使用了星期的7个特征使用LM建模。我们分析过数据后发现跟星期并没强烈相关性。反而更上班休假有强烈相关性(第一赛季事实上是跟股票有强烈相关,第二赛季数据量大倒没多大影响了)

所以我们设计了例如以下特征:

--一周正常第1/5天上班, 周末第1/2天,休假第1/3天,休假前/后正常上班的一天

--上班前一天休假,工作日。休假,月初月中月末(10天周期),每月第一天

--上一个波峰/波谷是几天前

--上班最后天后要放几天假(2-3,7 3个01特征)

--上班第一天前放了几天假(2-3 2个01特征)

--两天的假,三天的假

--周日补班

-- 股票波浪理论。135浪

另外全部特征均为01特征。为什么这样做大家能够自行思考下。

当中19个特征在part1的时候纯lm能够达到203分

全部特征在PART2的时候lm+RF能够达到201分

时间: 2024-08-06 12:18:48

【天池竞赛系列】资金流入流出预測思路的相关文章

【天池竞赛系列】阿里移动推荐算法思路解析

赛题地址:http://tianchi.aliyun.com/competition/information.htm?raceId=1 登录就可以下载数据 从4月到7月,学习了非常多也收获了非常多 题目就不多说了.一句话表达就是依据过去一个月的行为预測14年12月19号的购买情况. 看题目貌似推荐算法.自然就有队伍想到用协同过滤什么的.当然效果不好. 首先是特征的问题,然后是这是基于行为的相似,不太类似用户和商品类似的ItemCF.UserCF,还有非常多其它的原因.比方我买过一部手机,难道还要

【天池竞赛系列】资金流入流出预测思路

赛题地址:http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.VZW16k&raceId=3 登录即可下载数据 题目一句话:根据13年7月到14年8月的申购赎回数据预测14年9月每一条的申购赎回数据. 算法问题:此题可以使用线性回归和时间序列预测,只要特征好效果都还可以.我们使用的是R下面的随机森林+LM  ,决赛只有4次提交机会,第一次我们26名,后面每天都降,这些火箭简直太可怕了,最后天我们

KNIMI数据挖掘建模与分析系列_004_利用KNIMI做客户流失预測

利用KNIMI做客户流失预測 老帅 20150801 http://blog.csdn.net/shuaihj 一.測试数据 中国移动客服数据 须要測试数据,请留下邮箱 二.统计已流失客户 1.读取移动客服数据(客户流失.xlsx) 2.统计已流失客户 參数设置 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center"

体系结构复习2——指令级并行(分支预測和VLIW)

第五章内容较多,接体系结构复习1 5.4 基于硬件猜測的指令级并行 动态分支预測是在程序运行时.依据转移的历史信息等动态确定预測分支方向.主要方法有: 基于BPB(Branch Prediction Buffer)和BHT(Branch History Table)的方法 高性能指令发送(High Performance Instruction Delivery) 5.4.1 基于BPB和BHT的方法 (1)1-bit BHT 分支指令PC的低位索引1位记录上一次转移是否成功(不是预測是否正确)

LIME:模型预測结果是否值得信任?

花了一天时间对LIME论文:http://arxiv.org/pdf/1602.04938v1.pdf 细致阅读和代码阅读,实验.大体理解了作者的设计思路. 背景: 我们在建立模型的时候,常常会思考我们的模型是不是够稳定,会不会出现样本偏差效应. p>>N时候会不会过拟合? 我们检查模型稳定.我们进行一些cross-validation来看看各项评估指标方差大不大. 但是假设样本一開始由于採样偏差导致样本有偏,导致模型和实际情况有差异.这个就不太好评估了. 相同.p>>N也会有类似

使用excel进行数据挖掘(6)---- 预測

在配置环境后,能够使用excel进行数据挖掘. 环境配置问题可參阅: http://blog.csdn.net/xinxing__8185/article/details/46445435 例子 DMAddins_SampleData.xlsx 文件下载地址:http://download.csdn.net/detail/xinxing__8185/8780481 在数据表中,选择table analysis tools sample表.该表中是用户的信息统计,包含婚姻状况,性别.收入.子女,教

【Energy Forecasting】能源预測的发展和展望

说明 本文的内容来自Tao Hong博士的Energy Forecasting: Past, Present and Future一文的翻译和整理. 引入 能源预測包括了电力行业中有关预測的广泛的内容,比方短期负荷预測.长期负荷预測.局部负荷预測.电价预測.需求响应预測还有可再生能源发电预測等. 因为电力存储的限制和社会对于电力的需求造成了几个能源预測的有趣性质,比方复杂的季节性模式.24/7的电网数据收集.对精确度的需求等. 高级的能源预測依赖于严格的測试数据集.对于商业需求的理解,从统计学.

基于SVM的数据分类预測——意大利葡萄酒种类识别

update:把程序源代码和数据集也附上http://download.csdn.net/detail/zjccoder/8832699 2015.6.24 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------- w

吉首大学_编译原理实验题_基于预測方法的语法分析程序的设计【通过代码】

一.实验要求 实验二 基于预測方法的语法分析程序的设计 一.实验目的 了解预測分析器的基本构成及用自顶向下的预測法对表达式进行语法分析的方法,掌握预測语法分析程序的手工构造方法. 二.实验内容 1.了解编译程序的基于预測方法的语法分析过程. 2.依据预測分析原理设计一个基于预測方法的语法分析程序. 三.实验要求 对给定文法G[S]: S->AT       A->BU     T->+AT|$      U->*BU|$    B->(S)|m 当中,$表示空串. 1.推断上