2015阿里天池大数据比赛算法设计

项目地址 : https://github.com/Huangtuzhi/AlibabaRecommand

AlibabaRecommand

Alibaba 2015 mobile recommending algorithm competition.

比赛介绍

比赛通过对用户在移动终端上一个月的行为数据进行分析,为后一天的用户购买行为作出预测,进行推荐。

目录结构

├── LICENSE               #许可证
└── README.md             #使用说明
#建表
├── create_table.sql      #创建基本表
├── add_table.sql         #后续增加的表
├── add_index.sql         #为表建立索引
├── add_table_31day.sql   #建立存储31天数据的表,结构同上
└── add_index_31day.sql   #为表建立索引
#数据导入
├── datatoDB.sql          #大赛csv格式原始数据导入基本表
└── FeaturetoDB.sql       #feature.txt导入对应表
#main
├── __init__.py
├── TrainModel.py
├── ObtainPredict.py
└── GetFeature31day.py
#数据
├── feature.txt           #符合某个标准的记录(user_id,item_id,look,store,cart,buy)
├── data_features.txt     #feature.txt中记录的n维特征
├── data_features.npy     #转为矩阵格式(numpy库),下同
├── data_labels.txt       #feature.txt中记录的label(1/0表示购买/未购买)
├── data_labels.npy
├── feature_pos.txt       #feature.txt中所有正例
├── feature_p.npy
├── feature_neg.txt       #feature.txt中所有负例
├── feature_p.npy
├── TrainSet.npy          #训练集
├── TestSet.npy           #测试集
└── 31day_data_features.txt #31天所有数据的n维特征
#结果
├── predict_all_pairs.txt #得到所有预测的userid itemid对
└── filter_pairs.txt      #用train_item过滤的userid itemid对

原理

题目给了31天的数据,我们选择第30天作为分割点。用前30天的数据提取n维特征(每个[user_id,item_id]对可以提取一行特征),用第31天的真实数据去标记每行特征。

举个例子:某个[user_id,item_id]对[9909811,266982489]在前30天出现,如果在第31天它也出现了且behavior_type为购买,则标记这一行的label为1,否则为0。

这样形成了很多行的特征数据,我们把数据进行Logistic Regression训练,得到一个二分类的模型,这样模型就训练好了。

接下来就是预测,预测的东西就是上面的label,也即模型的输出。label为1表示我们认为用户会购买。那么模型的输入是什么呢?模型的输入就是31天所有数据的特征。

1th~30th————> 31th的label
1th~31th————> 32th的label

因为31th的label数据是已知的,所以可以利用它对训练出来的模型进行评估。而32th的label就是输出结果了。

说明

这是一个预测的框架,特征工程还需要进一步改善。

时间: 2024-11-06 14:46:25

2015阿里天池大数据比赛算法设计的相关文章

2015阿里天池大数据竞赛-Solution

竞赛介绍:链接 这篇文章记录2015阿里天池大数据竞赛中,我的一些代码,由于目前还在比赛中,仅分享一个naive solution,基于规则,代码主页在我的github上:链接,下面是代码说明.有兴趣的请看代码注释,恕不详述. 本repo目录说明 data 存放数据 preprocess 数据预处理 rule 根据规则生成提交文件 model 训练机器学习模型(暂时不分享) 代码使用说明 fork本repo,非Github用户请点右下角的Downlown ZIP 解压后,将tianchi_mob

阿里天池大数据之移动推荐算法大赛总结及代码全公布

移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元.相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息.用户访问的时间规律等. 本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通

阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!

阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!        天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛.通过开放海量数据和"天池"分布式计算平台,大赛让所有参与者有机会运用其设计的算法解决各类社会生活问题和商业世界中的实际问题.特别优秀的解决方案将有机会直接上线阿里巴巴旗下各电商网站(含淘宝.天猫等)或第三方合作伙伴平台,服务中国乃至世界数以亿计的用户.        2015年天池大数据竞赛将全面升级为黄金联赛,包含三个不同场景

阿里大数据比赛排名获取2

之前写了一片有关于阿里大数据比赛排名获取的文章(http://blog.csdn.net/dliyuedong/article/details/22849163),使用的是java,代码虽然不是很多,但是确实也不少.这几天简单的学习了一下php,发现php确实适合建立小网站,没有java(jsp)那样多的代码,但是java毕竟有java的优点,这里也不做说明,大家可以google一下.下面贴出使用php获取阿里大数据比赛的php代码: <html> <head> <title

阿里云 大数据 推荐系统

同学们:        随着比赛的进行,第二季比赛很快就要来临了.在第二季的比赛中,参赛者需登录阿里巴巴ODPS平台,访问海量天猫数据.利用ODPS平台的集成工具与算法,建模与提交结果.目前ODPS提供了一些基础的算法包和工具,可能不能完全满足大家需要.希望能够同学们可以通过回帖的方式反馈给我们,我们将视情况加入大家共同需要算法包,比如BP 神经网络.当然深度学习之类的估计就很难支持了. ODPS目前提供的算法列表如下: 分类预测 随机森林 逻辑回归 支持向量机 朴素贝叶斯 回归分析 线性回归

大数据平台架构设计探究

本文首发于 vivo互联网技术 微信公众号? 链接:https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA 作者:刘延江 近年来,随着IT技术与大数据.机器学习.算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘.识别.利用数据资产.如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据,大数据和业务产生了巨大的鸿沟,这道鸿沟的出现导致企业在使用大数

阿里爸爸大数据的应用与展望(笔记)

阿里全息大数据构建与应用笔记 阿里全息大数据构建与应用笔记 这个双十一你剁手了吗?→_→反正我的手机是收到了来自阿里爸爸的各种短信轰炸- 然而在购物之余,你又是否能够回答这么几个问题:电商是如何应用在大数据相关技术的?大数据给在线营销带来了怎么样的变革?在线购物体验在过去几年发生了怎么样的变化? 那么接下来就来看看大数据与在线营销能擦出怎样的火花- 1.数据的进化历程 ①大数据与数据的区别 ○量大,如果你只有几千条几百条的数据,还不好意思叫大数据 ○彼此关联,如果你的数据东一个西一个没什么关联,

2015年主宰大数据技术的五大发展趋势

大数据技术自出现以来以一种异常火热的速度发展着,且种种迹象表明这种发展趋势在2015年将会继续持续下去.MapR联合创始人兼首席执行官John Schroeder预测,2015年将有五大发展趋势主导大数据技术,MapR是致力于Hadoop分发版的专业公司. 仅仅几年时间里,大数据技术就从之前的炒作阶段逐渐发展成为新数字时代中的核心技术之一.2014年,企业内部的大数据计划慢慢地从测试阶段走向研发和生产.Schroeder表示,2015年,企业的大数据技术将会进一步推进,并向前发展,甚至会产生更多

大数据推荐系统算法代码全接触(企业内训,现场实录,机器学习算法+Spark实现)

[学途无忧网]大数据推荐系统算法代码全接触(企业内训,现场实录,机器学习算法+Spark实现)课程下载:https://pan.baidu.com/s/1piCNIxC2Sv0zMY0yWxY9Ug 提取码:b10v 一.课程简介: 推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程.个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品.随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间