阿里游戏大数据sesson2_RF&GBRT(上)

----------一个小的游戏体验,对于不太熟悉Xlab RF和GBRT同学们都叫参考,不喜勿喷,大神绕道,米姆达。

。。

。----------

6月初的时候LR 做到4.9后一直上不去,看群里火热的讨论RF。转而使用RF,几经折腾上手后。在当时的那批对LR来说非常好的特征处理下,结果F1仅仅有3.5左右。心灰意冷。。

。然后又看到火热讨论GBRT,再转gbrt,刚上手。效果和RF差点儿相同。看到别的同学直接从LR转到RF和GBRT都效果好非常多,那个急啊。然后又是考试周。就一直拖拉到6月下旬,最终下定决心又一次做一遍。由于gbrt训练时间比較长。且RF和GBRT对特征的效果相当,RF预測时间相对较短一些,便又一次做RF。慢慢的有效果了,停止了F1最终開始往上涨:4.9->5.16->5.66...近期開始再加入特征。相信还会有提升,以下把我们的RF和GBRT的训练和预測方法大概讲一下(主要以截图为主)

1、Xlab GBRT上手

1.1、训练特征表准备

训练的特征表gbrt_offline_section_one_24格式为:user_id,brand_id,feature1,feature2...Label
     

见下图:

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDY5MTg5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" >

1.2 、建立特征稀疏表。为训练做准备

特征稀疏表可直接在Xlab由原始特征表转换得到,截图例如以下

进入普通表转稀疏矩阵界面后。在选择列里填上: user_id相应的列号(表默认从0列開始)。brand_id相应的列号,以及想要使用的众多特征相应的列号(不须要填写标签相应的列号!。!

);然后在输出表里填上转换成的稀疏矩阵gbrt_offline_section_one_24_1;例如以下图

1.3 、GBRT训练

       利用训练的特征表gbrt_offline_section_one_24,进行GBRT训练,例如以下图所以

进入配置界面。勾选训练的标签,稀疏矩阵名处输入刚才转好的稀疏矩阵gbrt_offline_section_one_24_1。模型输出表处填写模型输出表名。參数配置处依据效果进行配置(最開始默认就能够的)。例如以下图所看到的:

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDY5MTg5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" >

配置好仅仅好就能够进行训练了,等待训练好之后等到GBRT预測模型:gbrt_offline_section_one_25;

1.4、GBRT预測特征表准备

训练的特征表gbrt_offline_section_two_11格式与训练特征表格式一样,为:user_id, brand_id, feature1, feature2...Label      见下图:

1.5、建立预測稀疏矩阵表

特征稀疏表可直接在Xlab由原始特征表转换得到,方法和原来一样。直接截图例如以下:

须要注意的是,选择列必须和训练时候一样。。。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDY5MTg5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" >

1.6、GBRT预測

利用转好的预測稀疏矩阵表gbrt_offline_section_two_11_1进行预測,例如以下图所看到的

进入界面例如以下:model 处填写刚才训练好的GBRT模型表:gbrt_offline_section_one_25;输出表名处填写预測结果输出表 gbrt_offline_section_two_13,然后进行预測。例如以下图所看到的:

1.7、GBRT碎碎念

GBRT预測好之后。得到的结果为与原始预測表gbrt_offline_section_two_11一一相应的单列值y_var(搞不懂为什么不提供类似RF那样预測结果追加user_id,brand_id 列),例如以下图:

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDY5MTg5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" >

所以。还得进行追加ID列,进行zxs_gbrt_offline_section_two_13_1和zxs_gbrt_offline_section_two_11_1两张表的合并,得到类似user_id,brand_id,y_val的表,取阈值进行推荐就能够了。下图为xlab里提供的脚本,追加ID列代码。

另外:附上脚本实现的代码,方便測试:

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDY5MTg5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" >

-----------__-----------PS---------__----------

版权声明:本文博客原创文章。博客,未经同意,不得转载。

时间: 2024-11-06 13:03:07

阿里游戏大数据sesson2_RF&GBRT(上)的相关文章

阿里爸爸大数据的应用与展望(笔记)

阿里全息大数据构建与应用笔记 阿里全息大数据构建与应用笔记 这个双十一你剁手了吗?→_→反正我的手机是收到了来自阿里爸爸的各种短信轰炸- 然而在购物之余,你又是否能够回答这么几个问题:电商是如何应用在大数据相关技术的?大数据给在线营销带来了怎么样的变革?在线购物体验在过去几年发生了怎么样的变化? 那么接下来就来看看大数据与在线营销能擦出怎样的火花- 1.数据的进化历程 ①大数据与数据的区别 ○量大,如果你只有几千条几百条的数据,还不好意思叫大数据 ○彼此关联,如果你的数据东一个西一个没什么关联,

2015阿里天池大数据竞赛-Solution

竞赛介绍:链接 这篇文章记录2015阿里天池大数据竞赛中,我的一些代码,由于目前还在比赛中,仅分享一个naive solution,基于规则,代码主页在我的github上:链接,下面是代码说明.有兴趣的请看代码注释,恕不详述. 本repo目录说明 data 存放数据 preprocess 数据预处理 rule 根据规则生成提交文件 model 训练机器学习模型(暂时不分享) 代码使用说明 fork本repo,非Github用户请点右下角的Downlown ZIP 解压后,将tianchi_mob

阿里云 大数据 推荐系统

同学们:        随着比赛的进行,第二季比赛很快就要来临了.在第二季的比赛中,参赛者需登录阿里巴巴ODPS平台,访问海量天猫数据.利用ODPS平台的集成工具与算法,建模与提交结果.目前ODPS提供了一些基础的算法包和工具,可能不能完全满足大家需要.希望能够同学们可以通过回帖的方式反馈给我们,我们将视情况加入大家共同需要算法包,比如BP 神经网络.当然深度学习之类的估计就很难支持了. ODPS目前提供的算法列表如下: 分类预测 随机森林 逻辑回归 支持向量机 朴素贝叶斯 回归分析 线性回归

炒股App:又一个大数据丢在风口上的蛋

尽管炒股App处于刚刚勃兴阶段,但业内几乎在短时间内迅速就其产品模式达成了共识--将交易与交流相结合,组建日常化的投资社区.在此之下,不同背景与定位的炒股App开始探索各自的商业模式,谋求符合自己的生存之道 ... 文/张书乐 本文刊载于<销售与市场>杂志评论版2015年08期 据媒体报道,与2007年"大牛市"不同,2014年以来的大牛市伴随移动互联网的蓬勃发展,特别是微信.移动新闻客户端等加快了信息传播速度.2007年时,股票投资者还需要在同花顺.大智慧等PC客户端浏览

阿里天池大数据之移动推荐算法大赛总结及代码全公布

移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元.相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息.用户访问的时间规律等. 本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通

游戏大数据揭秘 游戏运营最赚钱的办法在这里!

王者荣耀每天收入以亿为单位,羡慕马化腾一个游戏就赚的盆满钵满,那么游戏行业为什么这么赚钱,游戏运营在这其中至关重要,比如说某游戏公司的精细化商业化运营,可以根据玩家在付费和活跃维度的不同,在同一个商业化活动中设计不同的礼包和折扣.比如部分抽奖,可以有效保护付费玩家的体验,根据玩家在游戏内喜好的模式,在付费活动的推荐列表中推荐其可能更有付费意愿的道具,提升转化率,也可以优化游戏内商城..把用户分为高,中,低付费群里,每一个类别都设计不同的符合其心理账户的礼包道路,并对这些群体进行追踪和分析,当然了

要想月薪达到5万,要必备以下9项技能,阿里前大数据工程师说的

现在已经进入了大数据时代,哈佛大学社会学教授加里·金说:"这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界.商界还是政府,所有领域都将开始这种进程." 目前很火,数据源头,各种炫酷新技术,搭建hadoop.Hive.Spark.Kylin.Druid.Beam~,前提是你要懂Java,很多平台都是用Java开发的.这里面要解决的是实时.近实时和离线的大数据框架如何搭建,各数据流之间如何耦合和解耦我是一名大数据程序员,建了一个大数据资源共享群593188212 每天分享

大数据开发:(三)flume上传HDFS

开启hadoop:start-dfs.sh 通过浏览器访问node节点,http://IP:50070 检查 (如果无法访问,将防火墙关闭) 如果jps查看缺少了某个节点,首先查看xml文件是否正确,如果正确,删除hadoop/tmp文件夹,然后再次格式化,(格式化会重新创建hadoop/tmp),再次启动 操作分布式文件存储系统HDFS 查看hdfs中的文件内容 hadoop fs -ls / 查看hdfs中的详细内容hadoop fs -ls / 在HDFS中创建文件夹hadoop fs -

2015阿里天池大数据比赛算法设计

项目地址 : https://github.com/Huangtuzhi/AlibabaRecommand AlibabaRecommand Alibaba 2015 mobile recommending algorithm competition. 比赛介绍 比赛通过对用户在移动终端上一个月的行为数据进行分析,为后一天的用户购买行为作出预测,进行推荐. 目录结构 ├── LICENSE #许可证 └── README.md #使用说明 #建表 ├── create_table.sql #创建