老白聊数据-关于销售预测的那些事

小白混迹了几年,现在是个老白了,看似啥玩意都懂点,啥玩意也都不精通,今天和大家说的是关于销售预测的那些事,因为最近看了JDD大赛,也和几个参赛队员交流,有些有意思的想法,和大家分享一下。

最近在关注京东金融举办的JDD大赛,这个比赛比较有意思。大赛也是分了几道赛题,比如猪脸识别,信贷需求预测,店铺销售预测,登录行为识别,总的而言,比较贴近业务实际使用场景。比赛也是分了算法组和商业组,算法组是纯粹的PK算法的效果,而商业组,除了完成算法的构建和评分排名,进入决赛的队伍还要写作BP,构建一个基于赛题基础的商业模型。总体说,从京东金融的业务需要出发,本身题目具备商业价值,具体赛题信息如下图:

今天就花点时间说说个人对其中店铺销售预测这道赛题的一些理解和认识。

在商业组中,官方如是描述赛题:对店铺销量进行预测是“京小贷”业务信用评估的关键环节之一,只有准确的预估店铺未来的销量,才能合理的设定贷款额度,提高资金利用率。

具体的赛题内容是:对店铺开展贷款业务需要定期测量和跟踪经营状况,对店铺销量进行预测是其中的关键环节之一,只有准确的预估店铺未来的销量,才能准确的评估其资金需求并设定合理的贷款额度。本题目希望参赛者通过竞赛数据中店铺过往的销售记录,商品信息,商品评价,以及广告费用等信息来建立预测模型,预测店铺未来90天内的销售额。赛题数据为业务情景竞赛数据,所有数据均已进行了采样和脱敏处理,字段取值与分布均与真实业务数据不同。

简单说,通过精准预测销售,掌握未来店铺的业务情况,基于此,进行业务授信,发放贷款。这也就是说,当预测越精准,那么业务评估能力就越强,可以合理开展业务。

而京东给到的赛题数据具体如下:

评分标准如下:

对于每个店铺,计算其真实销量和预测销量之间的差异,按如下公式计算分数,其中yi真实值,y_hati为预测值,m为待测店铺数量:

换句话说,谁的得分越低,就是误差更小,谁的预测效果更好。

我查看了店铺销售预测商业组的排行榜,发现了一些有意思的事情,你会看到大家的得分基本没有拉开差距,第一名是0.393,而第三名是0.3945,也就是说大家在方法使用上,或者数据理解上,基本上差异性很小。可能在具体的尝试过程中,由于数据的准备不同,带来了一些细微差异,换句话这个榜单前三名的随机性很强,基本没什么差别。我们并没有看到出现那种差距极大的队伍出现。即使我们去看算法组的第一名得分也只是0.37。

商业组前10名得分

算法组前三名得分

那这个基本可以忽略的差距说明了什么问题,为什么没有出现一骑绝尘的队伍,对此我们此时需要回到这道题目本身来思考。

首先销售预测问题的一些成熟算法和模型,我们不需要多言,你是时间序列也好,还是ARIMA,LR,BPNN也罢,总的说算法就那么多,想解决这个问题,是无法脱离这些的。那么为什么预测的水平上不去,仍旧高达30%的误差?其实在官方给出的数据中,貌似给定了一定的预测所使用数据的边界,也许数据本身就代表了这道题目的局限性。

我们会发现,官方给出来的用于预测的数据中,涵盖了广告充值,评论,上下架时间的数据。似乎想从这个数据方面,来极限考验参赛团队的算法和数据准备实力。

但是再换一个维度思考,也许这是京东认为的对于销售预测相对有用的维度数据,当然了也涵盖部分商品信息,比如品牌和分类,似乎从中都是要找到与销售数字的相关性,进而提升预测准确性,不过我们发现商品相关信息,也只是关于品类这样维度的数据。

从销售预测本身来看,如果我们绘制一条某店铺销售曲线,我们会发现,头部有一两件商品的销售占比很高,二其他很多产品销售占比很低,或者是我们将店铺商品进行归类,某一类商品可能占据极高的销售数字。这就是我们以前总提到的一个20/80原则,也叫做帕累托法则,也就是20%的人贡献80%的业绩。在这个数据中,其实这种情况也存在,比如少数商品贡献多数收入的问题,少数店铺贡献多数收入。因此,在预测时,20/80原则实际上也是一种预测问题的处理思路,少数店铺的销售贡献依赖少数商品,当然也依赖广告或者评论的影响。不过从目前大家的分看,也许这几个因素的权重总计在60%左右。

那么剩下40%的因素在哪里?因为理论上,我们的得分是0才对。

在这里和大家的讨论是如何提高预测准确率的一种思考,换句话,也是寻找40%的因素的一种思路。

首先把销售预测问题换个角度来看,就是判断消费者购买的意愿高低,再细致来看,就是消费者的购买动机或者购买决策的判断,一旦找到那个准确的相关度最高的动机,那么就意味着,销售的预测精度就会大幅度提升。从初赛这些人员的预测结果看,以现有的算法,意味着这些因素与购买动机的的相关度,仅限于这个得分了。

我们之前用于销售预测的数据考虑了营销因素(广告),社交因素(评论),商品开发(上下架时间),但我们发现这些都是宏观因素,但是今天的消费者慢慢趋于理性,会考虑评论因素,也会货比三家,尽管价格还是一个很重要的因素。

但是我们发现作用很大的评论数据,在这里,被官方处理为正面评论,中性评论,负面评论,得说一句,这种数据的处理在数据集开放之前就做好了用1,0,-1来代替,但是对于语义的处理,划分三类标签,会出现一些偏差,毕竟如何理解正面,中性,负面,这个人的经验是不同的。这或许是本赛题中一个思考的方向。

不过如果排除这个因素我们会发现,似乎还是无法说明误差为什么很大,这时我们需要跳出来看,我们似乎忘记了很多的微观因素,比如商品本身的品质,参数,元素,颜色等等,这些不起眼的东西,也许正是最重要的驱动消费者购买的最重要动机。

在销售预测问题上,如果我们能够挖掘到用户购买的微观动机,也就是商品本身是否具备潜力和畅销特性,那么就能很好的捕捉到店铺的经营状态。

回看这道比赛题目,我们是要完成对未来的预测,所以我们要掌握到未来的除了营销计划,还有本身商品的属性,未来的空间,当你能够精准捕捉到哪些商品能够具备爆款属性时,就意味着,你看到了80%的销售收入机会,同时,基于微观商品的属性,我们也会挖掘到哪些商品是滞销的,是不适合进行推广和上架的。对店铺的授信同时,对于店铺的经营,如果能够形成的有效干预,则未来的双向合作业务基础才扎实。

简单说,我们需要进行商品本身DNA的拆解,找到那些重要的影响购买的元素,而一旦捕捉到,则意味着,我们能够掌握的潜力和经营方向可以更加明确。这个可以举个例在,比如服饰行业,我们可以对一一件衣服进行解构,比如版型,面料,图案,类型,风格,季节等,基于这些潜藏在衣服中的要素,进行从微观元素组合起来的预测分析,寻找爆款元素和相对应的产品,因为这些控制了较大的销售份额,同时那些滞销的元素也能寻找出来,并且可以进行防范和处理,减少不必要的损失。

当然销售预测的问题,我们都预测的是未来,如果在开始我们能够提供未来可以很好销售的产品,那么销售的预测也将迎刃而解。这看似是废话,其实,当中我们会发现怎么找到爆款产品,如何挖掘爆款,就潜藏在我们已有的数据之中。

而整体销售的预测,除了宏观因素的配合,这些内在微观因素则是基础,因为他们是构成消费者购买的驱动力之一,而每个商品的精准捕捉销售可能性,也就计算出来整体的销售可能性。

最后再说一点的是,其实你看评论数据,我们不能简单的归结成1,0,-1,消费者的评论中隐藏了很多对于产品某一方面的钟爱或者厌恶,而这恰恰是其他消费群体看到后,是否产生驱动力购买的关键,以此出发,我们刚才的思路就可以顺下来。

关于销售预测的问题,今天就聊这么多。

如果大家感兴趣交流,可以加微信号:i-analysis,继续交流

时间: 2024-11-06 19:07:47

老白聊数据-关于销售预测的那些事的相关文章

老白聊数据-为什么你的营销总是没有效?

最近在反复思考数据分析的价值究竟该如何落地,这个问题,其实大家都在反复追问很多行业大咖,也在不断尝试实践. 对我来说,我觉得数据分析在企业中的应用无非就是三个方面:营销,风险,经营. 通俗的讲,营销更多是面向客群运营的最后一步,基本上是围绕场景和客群展开的: 风险,则是解决如何降低成本,控制不必要的浪费,策略和规则是核心: 经营,则是要动态的评估和量化我们在诸多操作方面的效果,不断策略优化. 今天我们拿营销来说,数据分析在营销中究竟的核心价值在哪里,营销未来该怎么走下去? 我们来看作为客群运营的

android 数据存储分配的一些事

应用程序在运行的过程中如果需要向手机上保存数据,一般是把数据保存在SDcard中的.大部分应用是直接在SDCard的根目录下创建一个文件夹,然后把数据保存在该文件夹中.这样当该应用被卸载后,这些数据还保留在SDCard中,留下了垃圾数据.如果你想让你的应用被卸载后,与该应用相关的数据也清除掉,该怎么办呢? 通过Context.getExternalFilesDir()方法可以获取到 SDCard/Android/data/你的应用的包名/files/ 目录,一般放一些长时间保存的数据通过Cont

商业银行大数据六问六策(2)

大数据等同于数据仓库吗? 如前所述,商业银行是否具备大数据能力,应依据数据及数据分析系统所发挥的具体效用来判断.以“显著提升数据分析和商业决策的效率”,“显著提高对客户的理解与认知能力”,“低成本.批量地实现较高水准的个性化客户服务”三条标准来衡量,目前商业银行数据仓库建设还需在以下几个方面加以强化. 建设异构的数据仓库平台.多年来,商业银行的数据仓库以存储业务.交易数据为主,因此采购了存储成本较高的专业数据仓库服务,数据在进入仓库之前的ETL规则相对比较严格,并采用了“时间换空间”的策略进行主

那些年,曾经被我们误读的大数据 - Agenda - 世界经济论坛

body { font-family: Microsoft YaHei UI,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5; } html, body { } h1 { font-size:1.5em; font-weight:bold; } h2 { font-size:1.4em; font-weight:bo

数据科学家可能成为2015年最热门职业

腾讯科技讯 1月3日,你擅长数学,会用Python编程,而且还对某个行业了如指掌? 如果你拥有这样的技能集,那你就有可能当上数据科学家.而如果你当上了数据科学家,那你的日子就可以过得风风光光了--LinkedIn的最新投票结果显示,"统计分析和数据挖掘" 是2014年最大的求职法宝. 美国招聘网站Glassdoor的报告称,数据科学家的平均年薪为118709美元(约合人民币737550元),而程序员的平均年薪为64537美元(约合人民币400974元).麦肯锡公司的一份研究预测称,到2

天气驱动行业销售大数据(转)

摘要:自建国以来我国的气象系统已经十分完备,2015年中国气象局发布27号令后使得气象数据迈向开放数据(Open Data)新阶段,行业与公众可以使用海量气象数据助力企业,目前行业数据和海量气象数据还没有得到完全应用.本文主要研究气象数据对销售的影响,进而利用气象数据特性完成天气驱动行业销售的预测.我们以两个零售行业的销售数据为例,结合气象局提供的天气数据进行分析.同时,我们在分析中加入了经济因素,如上证指数和CPI数据来提供外部环境支持.与传统的预测不同,在气象数据中,我们不仅知道目前时间点的

大数据时代需要转变的思维

大数据时代要转变的思维: 要分析所有数据,而不是少量的数据样本 要追求数据的纷繁复杂,而不是精确性 要关注事物的相关关系,而不是因果关系 1. 分析所有数据,而非少量数据 至今为止,人们搜集数据的能力有限,因此采用的是"随机采样分析". 例如,要想知道中国顾客都联想笔记本的满意度,不可能对所有买了联想笔记本的人做问卷调查.通常的做法是随机找1000个人,用这1000个人的满意度来代表所有人的. 为了使结果尽可能准确,我们会设计尽可能精确的问卷,并使样本足够随机. 这就是"小数

寻路大数据:海量数据与大规模分析

寻路大数据:海量数据与大规模分析(Google大数据专家力作超豪华译者|作序者真正梳理趋势与生态|方案与工具选型|应用场景与价值挖掘的独家内参) [美]Michael Manoochehri(迈克尔.马诺切里)著   戴志伟等 译 ISBN 978-7-121-24472-8 2014年11月出版 定价:59.00元 244页 16开 编辑推荐 微博副总|高德技术副总裁|百度主任架构师|百度技术委员会主席|UCloud创始人&CEO联合作序推荐 大数据包罗万象,谷歌大数据平台技术权威独具匠心,站

大数据如何缔造足坛新秩序

“就像望远镜能让我们感受宇宙,显微镜能让我们观测微生物一样.大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正在蓄势待发??” 大数据正悄然影响着绿茵场上的强弱较量.过去仅仅依靠教练经验和球员的本能反应进行对决的时代已渐行渐远,未来的绿茵场将与数据捕捉与大数据分析紧密相连.目前,通过传感器和3D雷达正采集着大量的运动员数据,而数据分析的广泛应用也正促使体育业内部发生巨大的颠覆性变化. 欧洲足坛正在经历这样一场革命.专业球迷们可能从新闻堆里发现蛛丝马迹:各大球会都