天池新人实战赛之[离线赛]-指数加权平均

大赛链接

https://tianchi.aliyun.com/getStart/information.htm?spm=5176.100067.5678.2.6d75153cK2qkgK&raceId=231522

总之,就是给你一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),然后去判断这些用户在(12.19)对商品子集(P)的购买数据

刚看到这个题目,一头雾水,哪些是训练集?怎么测试?

结合一般的购物习惯,用户把商品加入购物车以后的当天或者第二天是最可能产生购买行为的,过了一个月之后很可能想买的欲望会降低很多,也就是说,把用户前一个月的行为进行加权平均,越靠近12.19号的行为权重更大,这不是妥妥的指数加权平均算法吗?

关于指数加权平均数,可以参考此文:https://blog.csdn.net/u014525760/article/details/79331898

具体思路和步骤:

1.给定的数据集只提取user_id,item_id,behavior_type,time,空间标识和商品标识先不用吧

2.把time的时间简化为1-30的int数据

3.去重,去掉同一用户对同一商品在同一天的多次相同行为

4.把behavior_type用3个one-hot编码表示,用0-没有添加购物车,1-添加购物车,0-没有收藏,1-收藏,0-未购买,1-购买

5.到底前一天的添加购物车或者收藏行为对第二天的购物行为的权重有多大呢?可以用12.18是否购买和前29天的购物行为推算

6,初步确定计算公式(迭代公式):
  某一日的购买指数是前一天的心仪指数和前一天的购买指数的加权平均(初步估计系数为0.8,加购物车购买系数先设计个0.8,收藏购买系数先设计个0.2吧,不要问我为什么,我也不知道,先试试)

  依次计算每一个用户对一个商品的心仪指数,例如:

  只在12.17日加了购物车并且收藏的话就是:0.2*(0.8*1+0.2*1)

  分别在12.15日收藏和在12.18日加入购物车的话就是:0.2^3*0.8*(0.8*0+0.2*1)+0.8*(0.8*1+0.2*0)

7.因为不管是加购物车还是收藏,之后购买的概率都是很小的,所以,我们最后求到的购买指数都不是反映实际购买率的,购买指数从大到小选择前1%作为我们最后筛选的最终结果

ok,这就是我的全部思路,现在开始代码阶段

原文地址:https://www.cnblogs.com/timotong/p/9257715.html

时间: 2025-01-11 02:13:24

天池新人实战赛之[离线赛]-指数加权平均的相关文章

第39届ACM国际大学生程序设计竞赛 亚洲区域赛(现场赛)西安站

 第39届ACM国际大学生程序设计竞赛 亚洲区域赛(现场赛)西安赛区总结报告 报告人:田思明 队名:ACpioneer 队长:陈志阳,队员:顾振兴,田思明 西安区域赛告下帷幕,我和陈志阳,顾振兴组成的ACpioneer队最终获得了一块宝贵的铜牌.首先要感谢陈志阳和顾振兴两位杰出队友的努力训练和出色表现,我作为一个新人跟着他们学到了很多很多,也十分珍惜和他们在一起的训练,比赛时光,其次要感谢陈志老师,不辞辛劳陪我们5队和6队前往西安参加比赛,还要感谢集训队所有曾经帮过我们的所有队员们,记得cdy

第七届省赛赛前交流赛部分题解

A题: Yougth's Game[Ⅲ]( 区间dp ) 这是在省赛前热身赛出的题目,可能是题目中有用到博弈的思想,很多人都在做,而且在尝试暴力.但是没有人往dp的方向上想. 题目类型:动态规划+博弈 分析:题意描述的很清楚,就是选择在两端取数,当前取的数不仅能够影响下一次的结果,而且能够影响后面的结果...又是一个求最优值,那么是不是可以往dp的方向上想了.区间dp 定义状态dp[ i ] [ j ] 为从 i 到 j 上A的得分,那么B的得分就是sum(i,j)-dp[ i ] [ j ]

(私人收藏)2019WER积木教育机器人赛(普及赛)解决方案-(全套)获取能源核心

2019WER积木教育机器人赛(普及赛)解决方案-(全套)获取能源核心 含地图,解决程序,详细规则,搭建方案EV3;乐高;机器人比赛;能力风暴;WER https://pan.baidu.com/s/1geQ0SUifYQ3XG2OpBeo2_gm206 原文地址:https://www.cnblogs.com/Nathan-Young/p/11026827.html

什么是指数加权平均、偏差修正?

指数加权平均 在深度学习优化算法中,例如Momentum.RMSprop.Adam,都提到了一个概念,指数加权平均,看了Andrew Ng的深度学习课程后,总结一下什么是指数加权平均. 式中v_t可近似代表1/(1-β)个θ的平均值. 偏差修正 由以上证明可以看出,每个最新数据值,依赖于以前的数据结果. 一般令第一个数值为0,即v0=0:但此时初期的几个计算结果就会与真实的平均值有较大偏差,具体如下: 有了指数加权平均.偏差修正的基础,就可以研究一下深度学习中优化算法的实现原理了. 点击进入文章

天池新人赛——快来一起挖掘幸福感!

该赛题使用公开数据的问卷调查结果,选取其中多组变量 包括个体变量(性别.年龄.地域.职业.健康.婚姻与政治面貌等等) 家庭变量(父母.配偶.子女.家庭资本等等) 社会态度(公平.信用.公共服务等等) 来预测其对幸福感的评价 前期处理 将提供的训练数据的幸福度标签独立出来,并将除了幸福度标签的训练数据和待测试的数据合并 这样就省去既要处理训练数据又要处理测试数据的冗余,一次解决 df_train = pd.read_csv("happiness_train_complete.csv",e

(2015 杭电校赛 暴力) 逆袭指数

逆袭指数 Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 626    Accepted Submission(s): 94 Problem Description 这依然是关于高富帅小明曾经的故事—— 尽管身处逆境,但小明一直没有放弃努力,除了搬砖,小明还研究过东方的八卦以及西方的星座,一直试图在命理上找到自己能够逆袭的依据. 当这些都

离线赛 2019.10.31

2019.10.30 \[ Ameiyo \] A: 地精部落 : Dp , 前缀和优化 Dp B: 深入虎穴 : 图,结论题 C: 教义问答手册 : 分治,分块,Dp A 挺简单的一道 Dp ...看 这个博客 . B 其实可以用 dijsktra 做这道题,但是每次用来更新的都是自己的次小值. 因为当你走到当前点时,老虎会让你不能走最小值,所以是用次小值更新. 每次也是拿次小值最小的点出来更新. ll mi[N][2]; struct NODE { int id; ll w; inline

省赛之一冲刺赛

2016-05-9 冲刺赛题目是从70~~80题 http://acm.nefu.edu.cn/JudgeOnline/problemShow.php?problem_id=1170 总结: 题做的并不理想,在五个小时的时间里只做出来四道水题,原因有很多. 其一,英语不好翻译不了作者所要表达的意思. 其二,知识点不了解,比如对于位运算并不知道——虽然在百度之后把题做了出来 关于位运算http://blog.chinaunix.net/uid-21411227-id-1826986.html 其三

(HDU-5246)2015Astar-初赛-1001-超级赛亚ACMer

超级赛亚ACMer Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 964    Accepted Submission(s): 303 Problem Description 百小度是一个ACMer,也是一个超级赛亚人,每个ACMer都有一个战斗力,包括百小度.
所谓超级赛亚人的定义,是说如果在对抗中刚好接近极限状态,那就会激发斗志,