大数据,云计算,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战视频教程

经过了近两个月的艰苦工作,这次在阿里天池的比赛终于结束了。第一次正经的去参加数据挖掘的比赛,从第一赛季开始到第二赛季结束,完整地经历了整个流程,每天提出新想法,学习新的方法,然后用编程的方法去实现,看着自己的MAPE一天天的下降,那种感觉也是很棒的。觉得付出了很多,也收获了很多,自己也找到了自己的方向,希望自己在未来可以朝着大数据和人工智能方向继续前行。而且这次比赛之后,自己在剩下三年的大学时光中还会继续参加很多这种比赛的,觉得这种比赛要比基础算法比赛更有趣,漫长的周期也更适合我比较散漫的生活方式。在这里回顾一下比赛,总结一下比赛的经验和教训吧。

第一赛季:

初次接触数据挖掘大赛。

第一次参加数据挖掘比赛,虽然前面打过KDD CUP的比赛,而且类型都是差不多的,但是那次也只是分析了一下数据,然后用统计量做了一下填补而已。而这次我们要动真格的了,我们要用机器学习的模型去生成结果——大杀器Xgboost。至于Xgboost的厉害之处,我会在另一篇blog上写一下,据老师私下里给各个模型的排名,Xgboost除了在图像处理上略逊于深度学习,在其他领域上应该都是最厉害的模型了。

第一次提交结果。

第一天的时候,我们并没有去分析什么数据(其实以后也没怎么分析,我认为这也是我们犯下的一个很大的错误),而是直接去填了一个历史中位数,我当时并没有理解为什么要用这么个简单的中位数去填补结果,只是在第二天早上起来睡得懵懵地看了一眼线上结果,MAPE在0.4284,在当天排名中占25名。当时感觉还不错的,也没有在意什么别的东西,到了第二赛季的时候想了想,这么提交个中位数应该是为了获得一个MAPE标准,看看建模比这个统计量能提升多少。当时没有测试线下数据集的MAPE,也没有对提交有一个详细的日志,导致到了第二赛季刚开始时,很多问题找不到原因,想与第一赛季同样方法做出的结果做对比时却没有数据的尴尬。后来又对这个统计量做了一下优化,但是并没有提升多少,可见这种在KDD CUP上做起来效果还不错的方法在这次比赛上并不好。我觉得可能是这次比赛数据量比较大的原因吧,当数据量比较大时模型训练的就越完备,预测的也就越接近真实值,这是我的理解。

Xgboost建模。

由于有了之前用Sklearn中的liner-regression建模的经验,这次初次使用Xgboost建模并没有遇到多少的困难,只是Xgboost的训练集和测试集要求使用libsvm格式的文件,我尝试过把训练集和数据集做成libsvm文件的形式,但是出现了各种各样的格式问题。后来发现可以直接用numpy的二维数组导入。。。真的坑。

第一次建模没有采用任何的特征工程,也没有对数据采取任何的预处理,当时的数据纯净度还不是特别好。我们只用了历史中位数和路长两个特征,用了6月份6-7点的数据作为训练集,6月份8点的数据作为测试集来建模,最后的线上结果可以达到0.3540,相对于单纯的使用统计特征MAPE有了将近7%的提升,看来Xgboost果然名不虚传。但是刚刚开始做的时候,我建模的时候感觉特别别扭,因为感觉平时做建模的时候都不是这样做的,后来想了想,这样实际上是在历史中位数和真实值之间做了一个映射,而不是通过特征在历史数据和未来数据中建立映射,所以才会感到很别扭。

原文地址:https://www.cnblogs.com/abc1168/p/9610001.html

时间: 2024-10-11 02:43:19

大数据,云计算,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战视频教程的相关文章

大数据云计算系统顶级架构培训视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

大数据云计算openstack云平台基础到精通实践视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

新的学习路径、学习想法和思路的头脑风暴:基于泰迪云课程,对数据分析和数据建模,机器学习算法进行统筹,接着是基于大数据的数据挖掘、进度、

新的学习路径.学习想法和思路的头脑风暴:基于泰迪云课程,对数据分析和数据建模,机器学习算法进行统筹,接着是基于大数据的数据挖掘.进度. 泰迪云代码已经下载,对相关内容进行应用和学习 想通视频之后对代码进行研究 专家经验.优秀经验工程师经验转化. 从论文中第三四大章,读取 设计和解决问题流程 找论文.使用benchmark 上有收录论文.找到论文.不建议自己先去想. 以后一定 偏分析,偏挖掘.偏决策的.不是执行者,执行者是最low的,最强的解决方案,都按论文来找. 高端会议.每年会出来十多篇研究成

人工智能和嵌入式|大数据|云计算等的关系

人工智能和嵌入式|大数据|云计算等的关系 人工智能的大数据就来源于嵌入式设备,人工智能要落地,最后关键还是要看嵌入式设备.嵌入式技术将会因为人工智能跟物联网两个革命而再次焕发生机和活力. 云计算跟人工智能有什么关系?首先,什么是"云计算",关键就是本地的瘦客户端,本地是一个计算能力有限的瘦客户端,然后通过实时网络(譬如说4G,5G网络),连接云端服务器获取信息和资源.云计算的本质就是把大量的运算放到服务器端进行,本地通过网络快速的跟服务器进行信息的交换,有些对时间响应性相求不是很高的人

大数据云计算学习路线图(纯属个人看法和观点)

[ps:以下纯属个人观点和看法,有什么不对的,还请多多指教.] 1:之前发过一个Java攻城狮的学习路线图[ps:挺详细的~~~]:http://www.cnblogs.com/biehongli/p/5754555.html 恰恰是这个Java攻城狮学习路线图使我在学习编程的路上看到了希望,使迷茫的我找到了方向.现在还为此在努力...... 2:而今天呢,结合一些培训机构的学习路线图,今天发一个大数据云计算的学习路线图,也许有的人心中会有些疑问说这货是骗浏览量,点击量的吧,可是原因不是这样的哦

大数据与数据挖掘的相对绝对关系

数据不是信息,而是有待理解的原材料.但有一件事是确定无疑的:当NSA为了从其海量数据中"挖掘"出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格. 麻省理工学院的研究者约翰·古塔格(John Guttag)和柯林·斯塔尔兹(Collin Stultz)创建了一个计算机模型来分析之心脏病病患丢弃的心电图数据.他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常者--一年内死于第二次心脏病发作的机率比未出现者高一至二倍.这种新方法能够识别出更多的,无

大数据云计算高级实战Hadoop,Flink,Spark,Kafka,Storm,Docker高级技术大数据和Hadoop技能

大数据和Hadoop技能可能意味着有你的梦想事业和被遗忘之间的差异.骰子引用:“技术专业人员应该志愿参与大数据项目,这使他们对目前的雇主更有价值,对其他雇主更有销路.” 1.与Hadoop的职业:根据福布斯2015年的一份报告,约有90%的全球性组织报告了中高级别的大数据分析投资,约三分之一的投资者称其投资“非常重要”.最重要的是,约三分之二的受访者表示,数据和分析计划对收入产生了重大的可衡量的影响. Hadoop技能是需求的 - 这是不可否认的事实!因此,IT专业人士迫切需要使用 Hadoop

王家林亲传《DT大数据梦工厂》第三讲Tuple、Array、Map与文件操作入门实战

你想了解大数据,你想成为年薪百万吗?那你还等着什么,快点来吧!跟着王家林老师学习spark大数据 第三讲Tuple.Array.Map与文件操作入门实战 Tuple object TupleOps  { def  main (args: Arrag[string]): Unit = { val triple = (100,”Scala”,”Spark”) printIn(triple._1) printIn(triple._2) } } Array object ArrayOperations

大数据云计算学习内容

Linux大纲 1.Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程.CentOS虚拟机安装过程 2.了解机架服务器,采用真实机架服务器部署linux 3.Linux的常用命令:常用命令的介绍.常用命令的使用和练习 4.Linux系统进程管理基本原理及相关管理工具如ps.pkill.top.htop等的使用: 5.Linux启动流程,运行级别详解,chkconfig详解 6.VI.VIM编辑器:VI.VIM编辑器的介绍.VI.VIM扥使用和常用快捷键 7.