2015阿里天池大数据竞赛-Solution

竞赛介绍:链接

这篇文章记录2015阿里天池大数据竞赛中,我的一些代码,由于目前还在比赛中,仅分享一个naive solution,基于规则,代码主页在我的github上:链接,下面是代码说明。有兴趣的请看代码注释,恕不详述。

本repo目录说明

  • data 存放数据
  • preprocess 数据预处理
  • rule 根据规则生成提交文件
  • model 训练机器学习模型(暂时不分享)

代码使用说明

  • fork本repo,非Github用户请点右下角的Downlown ZIP
  • 解压后,将tianchi_mobile_recommend_train_user.csv以及tianchi_mobile_recommend_train_item.csv放入/data/目录下
  • 仅需两个步骤即可获得一份提交文件,F1可达到7.6%
    • 第一步,进入/preprocess/目录,运行data_preprocess.py
    • 第二步,进入/rule/目录,运行gen_submission_by_rule.py
  • 完成上面两个步骤后,在/rule/目录下会生成一份tianchi_mobile_recommendation_predict.csv文件,提交它。

补充说明

  • 纯Python,无任何依赖项。
  • 关于代码实现的功能,在每份代码文件中均有注释,代码可能写得比较乱,也可能有bug,欢迎issues。
  • 如果你想获得更高的F1值,修改gen_submission_by_rule.py这份文件,加入一些规则,F1可以达到9%以上
  • 建议在Linux下运行;在我的PC上(8核),上面两个步骤总共花了不到20分钟。
  • 请在规则的基础上,做特征工程,训练模型,这才是参赛目的。
  • 进入第二赛季后,请删了这些代码,不适合处理大数据。
时间: 2024-12-10 20:29:14

2015阿里天池大数据竞赛-Solution的相关文章

2015阿里天池大数据比赛算法设计

项目地址 : https://github.com/Huangtuzhi/AlibabaRecommand AlibabaRecommand Alibaba 2015 mobile recommending algorithm competition. 比赛介绍 比赛通过对用户在移动终端上一个月的行为数据进行分析,为后一天的用户购买行为作出预测,进行推荐. 目录结构 ├── LICENSE #许可证 └── README.md #使用说明 #建表 ├── create_table.sql #创建

阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!

阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!        天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛.通过开放海量数据和"天池"分布式计算平台,大赛让所有参与者有机会运用其设计的算法解决各类社会生活问题和商业世界中的实际问题.特别优秀的解决方案将有机会直接上线阿里巴巴旗下各电商网站(含淘宝.天猫等)或第三方合作伙伴平台,服务中国乃至世界数以亿计的用户.        2015年天池大数据竞赛将全面升级为黄金联赛,包含三个不同场景

阿里天池大数据之移动推荐算法大赛总结及代码全公布

移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元.相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息.用户访问的时间规律等. 本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通

Kaggle大数据竞赛平台入门

Kaggle大数据竞赛平台入门 大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kaggle.com/.很多的机构,企业将问题,描述,期望发布在Kaggle上,以竞赛的方式向广大的数据科学家征集解决方案,体现了集体智慧这一思想.每个人在网站上注册后,都可以下载感兴趣项目的数据集,分析数据,构造模型,解决问题提交结果.按照结果的好坏会有一个排名,成绩优异者还可能获得奖金/面试机会等. 图

阿里大数据竞赛season1 总结

关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是归一化环境是不可少的: 3. 将部分代码传到了**github** 4. 听说阿里又改赛制了,哈哈. 最近好累啊,简单总结一下吧. 碎碎念 这个比赛自己真的是花时间花精力去做了,虽然在s1止步,但是可以说对自己的数据分析入门算是蛮有意义的.收获的东西也蛮多,学了下python,真是一门灵活的语言(感

谈谈ODPS商业化(四):2014阿里巴巴大数据竞赛

几天前2014阿里巴巴大数据竞赛刚刚落下帷幕,第11名的F1分数.准确率和召回率是6.10%.6.28%和5.93%.前10名的成绩还未公布,他们会被邀请到阿里巴巴公司来,有机会和内部团队一起参与双11.选手们闲下来,开始在群里爆特征.开玩笑.交换联系方式. 这次海内外共有7276支队报名.比赛分为多个阶段:S1是线下海选,从S2开始上ODPS,每月底淘汰末位的100支队,直到7月31日尘埃落定.选手们需要像阿里数据分析师一样工作,完全依赖云端的ODPS平台上的SQL.Mapreduce和Xli

阿里巴巴大数据竞赛总结

——谨将此文献给阿瑞(@Nyanko君一生懸命)和湛卢.阿瑞在MapReduce等方面提供的技术支持,使我们成为最早充分利用ODPS的团队之一:湛卢提出很多分析问题的新思路,让我们在走投无路的时候屡次重拾希望. 0.    写在最前面 这个系列的几篇文章,记录我们队对于问题的整个处理过程.分成两个部分:首先的这一篇,记录我们分析问题的思路,以及由此建立的特征体系,模型的选择和融合:下一篇(也许会有),总结一下top10团队的做法(这个必须要等到8月20日他们答辩以后了). 这个系列的文章重点围绕

阿里云 大数据 推荐系统

同学们:        随着比赛的进行,第二季比赛很快就要来临了.在第二季的比赛中,参赛者需登录阿里巴巴ODPS平台,访问海量天猫数据.利用ODPS平台的集成工具与算法,建模与提交结果.目前ODPS提供了一些基础的算法包和工具,可能不能完全满足大家需要.希望能够同学们可以通过回帖的方式反馈给我们,我们将视情况加入大家共同需要算法包,比如BP 神经网络.当然深度学习之类的估计就很难支持了. ODPS目前提供的算法列表如下: 分类预测 随机森林 逻辑回归 支持向量机 朴素贝叶斯 回归分析 线性回归

阿里爸爸大数据的应用与展望(笔记)

阿里全息大数据构建与应用笔记 阿里全息大数据构建与应用笔记 这个双十一你剁手了吗?→_→反正我的手机是收到了来自阿里爸爸的各种短信轰炸- 然而在购物之余,你又是否能够回答这么几个问题:电商是如何应用在大数据相关技术的?大数据给在线营销带来了怎么样的变革?在线购物体验在过去几年发生了怎么样的变化? 那么接下来就来看看大数据与在线营销能擦出怎样的火花- 1.数据的进化历程 ①大数据与数据的区别 ○量大,如果你只有几千条几百条的数据,还不好意思叫大数据 ○彼此关联,如果你的数据东一个西一个没什么关联,