关于2015阿里移动推荐算法大赛的总结(一)

写在最前面,第一场比赛的第一轮早已结束,lz组的团队已被淘汰~跟lz组队的人跟lz一样也是新手菜鸟,参加比赛只是兴趣与好奇。现在第二场比赛开始了,lz还会继续玩下去(虽然lz校内科研、项目压力都很大)~



官方给了两个集合表——用户在商品全集上的移动端行为数据表和商品子集表。行为数据里面分别有用户名、商品名、行为类型(浏览、收藏、加购物车、购买)、地理位置、商品类别、行为时间。商品子集里面有商品名、商品类别、地理位置。

题目是根据官方给的一个月的用户行为数据,预测这个月过完的第一天在商品子集中用户可能购买的商品。评分使用的是正确率与召回率的加权。

首先,我们想到的是根据行为的统计特征进行购买的预测,简单的说就是假如用户加入购物车,那么购买的可能性就很大,收藏,浏览产生购买行为的可能性递减。

同时还有地理位置这组信息,从经验判断,地理位置相近购买可能性也越大,在武汉的童鞋一般不会买杭州的电影票或者餐券吧。(这里要说明下,因为是移动端行为数据,很大一部分是类似电影票、门票、代金券、外卖等等商品,当然也肯定会有我们熟知的淘宝物品。)

还有一点,很显然商品子集里的商品是行为数据表中商品的子集(也就是说假如购买了pad,会继续购买个pad套,而这个pad套在子集里,pad只在行为数据表里,需要寻找出这样一种规律)。

初期,我们把侧重点放在题目的“推荐”两个字上了,搜集并研究了大量的“推荐算法”,然后也分析整理出了一套模型,但是在最后要得出结果那一步发现,根本不是题目要的结果。题目要的就是在那一天用户会购买那些商品,而不是用户可能对那些商品感兴趣。这样我们就推翻了我们的这条路,当然我们自己在这条“黑路”上也学到了不少,后面我会单独总结整理一下,我们关于“推荐算法”的种种。

后来,看了一些官方给的建议。我们才明确,简单的说我们要做就是二分法的预测,买还是不买。然后我们就想到对用户行为抽象为特征向量,利用时间划分数据,使用机器学习的方法训练模型,对某一天的购买行为进行预测。我们在这方面也是从开始学习,到做了一些工作,分析总结。虽然最后的结果还是差强人意,最终是948名,但是中间有最好排名303过(最终取前500进入第二轮)。关于这部分的工作,后面我也会单独总结整理的。这里就先开个总结的头,逼自己把做过的东西整理出来~~~

时间: 2024-08-10 15:10:55

关于2015阿里移动推荐算法大赛的总结(一)的相关文章

关于2015阿里移动推荐算法大赛的总结(三)——机器学习

关于2015阿里移动推荐算法大赛的总结(一) 关于2015阿里移动推荐算法大赛的总结(二)--推荐算法 关于2015阿里移动推荐算法大赛的总结(三)--机器学习 后来我们回归到正途上,虽然我们也想用深度学习的方法,但是毕竟还是菜鸟的水平,所以把目标定在能用机器学习跑通一遍,顺带熟悉一下各种机器学习算法的实际应用.但是最后的最后我们只用了LR,然后就受打击了.哈哈~ 想用机器学习的方法,那么思路其实也很明确,问题是那一天用户是买还是不买,那么可以看成是二分法.通过用户行为方式来判断是否会购买.就是

关于2015阿里移动推荐算法大赛的总结(二)——推荐算法

虽然开始走错了路,但是也学到了东西,美团技术团队的文档还是不错的,喜欢的童鞋可以经常去瞅瞅,后面我会给链接的~~~~ -------------------------------------------------------------- 具体流程 基本流程如下,借用美团的图. 从框架的角度看,推荐系统基本可以分为数据层.触发层.融合过滤层和排序层.数据层包括数据生成和数据存储,主要是利用各种数据处理工具对原始日志进行清洗,处理成格式化的数据,落地到不同类型的存储系统中,供下游的算法和模型使

阿里移动推荐算法大赛答辩PPT

?

【天池竞赛系列】阿里移动推荐算法思路解析

赛题地址:http://tianchi.aliyun.com/competition/information.htm?raceId=1 登录就可以下载数据 从4月到7月,学习了非常多也收获了非常多 题目就不多说了.一句话表达就是依据过去一个月的行为预測14年12月19号的购买情况. 看题目貌似推荐算法.自然就有队伍想到用协同过滤什么的.当然效果不好. 首先是特征的问题,然后是这是基于行为的相似,不太类似用户和商品类似的ItemCF.UserCF,还有非常多其它的原因.比方我买过一部手机,难道还要

天猫推荐算法大赛总结

原文:http://closure.blog.ustc.edu.cn/?p=117 阿里这次天猫推荐算法大赛题目的核心是给定用户对品牌的四个月的操作记录,预测下个月哪些用户对哪些品牌产生购买行为,这可以抽象为一个01分类问题,更确切的可以抽象为一个点击率预估(CTR).与其说这是一次比赛,我觉得更多的是一次认识,一次对大数据价值的深刻认识,在分享自己的体会之前,我真心的感谢阿里,给我们提供这样一种机会,让我们在学校里可以接触真实的数据业务需求,让所学的理论可以有一次真实的实践机会. 关于这次比赛

A公司 推荐算法大赛 总结

一.介绍 ♦通过用户前四个月(04.15~08.15)的用户行为预测用户第五个月(08.15~09.15)将会购买的品牌.用户共有四种行为(type)分别是:点击(0).购买(1).购物车(2).收藏(3).数据原始内容如下: 比赛评价方式按照F1排名,F1=2×P×R/(P+R)其中,P是准确率为命中的数量除以用户的预测数,R是召回率为命中的数量除以真实的购买数.采用F1评分,在正负样本数不平衡的系统中代替正确率作为系统的评价指标. 二.方法介绍与特征选择 ♦逻辑回归与随机森林.首先,在使用逻

阿里天池大数据之移动推荐算法大赛总结及代码全公布

移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元.相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息.用户访问的时间规律等. 本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通

[阿里移动推荐算法]比赛_快速入门_4_19_update_仅供参考,思维不要受局限

[这里只讲快速入门——即破题,正负样本不平衡.特征数量等问题就自己多看论文或者其他资料吧~~如果还有数据挖掘相关基础知识不了解的,建议看看<数据挖掘导论>] [以下是理解错误案例]:错误的根本原因是不能保证训练集的构建逻辑与赛题目标保持一致,不能保证训练集和测试集的构建逻辑保持一致,不能保证离线评测的逻辑和线上保持一致! 1. 有同学在构建训练集的时候,为了给样本(即ui对)标上正负,不是根据分割点之后第一天的购买情况来对分割点之前的ui进行标记,而是根据分割点之前某个时间段内的购买情况进行标

2015阿里秋招其中一个算法题(经典)

写一个函数,输入一个二叉树,树中每个节点存放了一个整数值,函数返回这棵二叉树中相差最大的两个节点间的差值绝对值.请注意程序效率 这是2015阿里秋招的一个在线笔试题 实现方法很简单,遍历一遍二叉树,找出最大最小,一相减就可以求出最大的差值 之前在做题的时候居然写递归的方法求值,后面测试了一下,果然结果不对 只要是非递归的的方法遍历都可以很容易找出最大值最小值,效率也比较高,时间复杂度为O(n). 下面是我用非递归从上往下遍历二叉树的方法 用队列容器即可方便实现. 我写的代码: #include