大数据驱动的运营创新和探索

摘要:以“数字金融新原力(The New Force of Digital Finance)”为主题,蚂蚁金服ATEC城市峰会于2019年1月4日上海如期举办。财富管理专场上,蚂蚁金服财富事业群高级技术专家陆鑫做了主题为《运营科技的创新和探索》的精彩分享。

演讲中,陆鑫分别从数据协作,智能营销和运营分析等几三个方面介绍了运营科技如何助力运营“自动运营”,蚂蚁金服希望未来几年将运营往自动化方向引进,减少运营工作压力,节省成本。

陆鑫 蚂蚁金服财富事业群高级技术专家

本次直播视频精彩回顾,戳这里
以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下四个方面:

一、背景简介

二、数据协作

三、智能营销

四、运营分析

一、背景简介

作为工程师,要对接的对象是运营同学。运营同学每天都非常忙,他们每天有各种方案需要汇报,各种的设计稿需要修改,以各种预算需要去申请。工程师思想通常是把复杂事件用简单的技术方法解决。所以蚂蚁金服希望用运营科技去助力运营,通过技术方法自动的帮助运营省去很多繁琐的工作。

通常来说,自动运营分为三个方面。做自动的运营首先需要有数据,数据目前蚂蚁金服依赖机构的数据和蚂蚁内部数据。那如何对两部分的数据做更好的协作,并且帮助机构描述更好的用户画像以及更好的用户的事件?第二个是智能营销,即如何借助人工智能的技术给用户更适合的图文物料和更合适的文案,以及如何确定红包的大小?第三个是运营分析,只有顺利得到线上用户的反馈,才能更好的让运营系统更好的迭代优化。

二、数据协作

1. 数据协作是机构和平台联合运营用户的基础

金融学领域经常会抽象这个世界。作为运营工作,蚂蚁金服与金额机构进行了很多运营方面的讨论和金融技术的讨论。运营中有三个实体。一个是什么样的人,要针对什么样的人做这个事情。第二个是发生了什么事情,比如说用户购买了第一笔基金,做了定投,登登录支付宝等等都是用户发生的一个事件。第三个用户在某个时间点做了一件什么样的事情(action)。

如下图,横坐标描绘了一个用户的成长路径。成长路径是指新用户成长为成熟用户的过程。蚂蚁接触了大量的小白用户,他们一穷二白,可能有钱,但是无法知道在它们理财领域有什么样的知识。另外一端是成熟用户,通常做资产配置,做组合或者做定投的用户可以认为是理财成熟用户。蚂蚁金服希望将小白用户逐渐推进到成熟用户。通过定义事件,描述用户发生了什么事情。首先将蚂蚁平台的数据和机构数据融合起来,完善用户画像。第二个,对平台做结构化抽取,并让机构定义自己的事件。比如,有一个用户在蚂蚁或者在机构清仓了,那么蚂蚁需要挽回这个用户,在用户下一次登陆支付宝时,给他发送陪伴的文章或者红包,让用户意识到还有一个这样的机构在陪伴他。蚂蚁一直尝试在持仓页面陪伴用户。比如市场上发生了大的波动,很多小白用户很容易清仓或者抛售,这时蚂蚁在持仓页面上推送一些陪伴的文章,告诉用户市场上发生的事情只是短期波动而非长期。通过数据协作试图将机构数据和蚂蚁平台数据进行融合,准确描述用户的成长路径。

2. 数据流通释放数据价值

数据流通是释放数据价值的关键环节。然而,数据流通也伴随着权属,质量,合规性,安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。

a. 数据质量

数据流通首选需要解决数据资源在符合使用方质量要求的前提下的高效流动。高效流动需要数据资源标准化,产品化,数据资源实时在线可按需查询,数据资源覆盖度能满足需方业务需求,以及相同需求的数据资源具备多个数据源可供应。目前,因为数据需求方的个性化需求,导致实际流通数据多以单一供应方按需定制加工方式处理,对需方来说,不能获得持续,多源的,标准化的数据资源,阻碍了数据流通效率的提升。同时,数据质量评估也是数据流通需要解决的重要问题。由于数据资源的特殊性,很多情况下必须在实际使用后才可验证数据质量,质量评估检验的难度较大。加之不同数据源的数据质量参次不齐,质量衡量标准不一,质量评估体系不完备等问题逐渐显露,使需求方较难在流通之前评估供应源的数据质量,是困扰大数据产业与行业应用的发展的难点问题之一。

b. 数据安全与隐私保护

如何确保数据流通的过程的安全,合法是数据大数据行业发展中遇到的另一个难点问题,尤其在保护个人隐私信息方面是必须解决的问题。现有法律法规的约束使得大数据产业在其发展中仍存在着诸多 不确定因素和法律风险。如不当收集,使用或滥用个人信息,有可能被利用以实施各种犯罪,流通过程中的数据监听,截获隐患,超出初始收集目的和业务范畴的再使用,包括提供给合同之外的第三方的使用(即流通)等,都会危害到公民的人身和财产利益。同时,流通中的数据资源也需考虑可流通范围,流通对象合法性,流通过程的安全保障,使用授权等一系列安全问题。

c. 数据流通基础设施

数据作为流通商品的定价问题也日益成为关注的焦点。由于数据具有质量,覆盖度,及时性和准确性等多重影响价格的因素,使得目前还未能形成一套通用的数据定价策略。一般来说,供方倾向使用数据加工成本的计算方式评估数据资源价格,而需方则希望按数据使用获得的价值的比例与供方协商价格,最终无法形成统一认可的市场价格体系。

3. 数据流通技术需求

在过去一年,蚂蚁金服一直在尝试用技术手段解决这些业务问题。

a. 个人信息保护

个人信息保护是数据流通的前提。根据《中国人民共和国网络安全法》规定:“未经被收集者同意,不得向他人提供个人信息。但是, 经过处理无法识别特定个人且不能复原的除外”。 对此,个人信息保护可以从信息处理和个人授权两个方面解决。但是,去除个人信息的处理加工方式必然伴随着信息的流失导致信息使用价值降低。因此,如何同时保证信息完整不缺失和保护被收集者个人信息成为迫切需求。

  • 数据标识加密技术
  • 加密后的数据标识可进行关联技术
  • 个人信息被流通前的有效授权技术

差分隐私,同态加密等加密技术都可以实现对个人数据信息保护的前提下,实现数据计算任务。

b. 权益分配

权益分配是数据流通的基本动力。对权益进行合理分配才能促进数据不断流通。必须保证数据拥有者,数据持有者,数据开发者都能够得到合理分配的权益。权益分配策略必须在技术上简单高效可行。技术要能够满足以下需求: 一是权益分配方案必须为各方所共同接受。必须按照各方贡献价值大小进行分配。二是必须能够快速高效计算各方贡献价值,保证各方贡献价值真实有效。其中,区块链技术可以实现高效安全的多方利益分配机制,做到去中心化,信息可追溯,并且提供可信的多方计算环境。

c. 数据安全保障

安全保障是数据流通的关键屏障。必须通过技术手段保障流通数据安全与用户安全。 一是对流通的数据应采用加密手段处理,保证数据在传输过程中的安全。二是在上传数据前必须明确告知被收集者,禁止在未经被收集者同意情况下采用技术手段直接上传数据。三是禁止流通任何危害国家安全社会稳定,侵犯他人权利,涉及商业机密的数据。技术上能够做到对这些数据检索识别,追踪数据上传源头。四是数据必须在一定范围内使用,符合有限使用原则。技术上能对数据使用范围做出检测,警告超出合理使用范围的数据应用。 其中,安全多方计算技术,可以确保在保护数据提供方数据的前提下,实现多方安全协同计算,并确保各参与方得到正确的数据结果反馈。

d. 追溯审计

追溯审计是数据流通的坚实后盾。对已经流通的数据建立完善的 追溯审计体制,使违规侵权行为被及时追踪发现。技术要能够满足以下需求: 一是对参与数据流通各方实体的行为做到透明日志记录,方便数据拥有者查阅其数据使用记录。二是能够及时检测日志中出现的异常 行为并快速定位异常情况,追溯到行为源头。 其中,区块链技术天然具备透明日志记录以及可追溯,不可篡改的特性,非常适合做安全,透明的追溯审计。

4. 用户的安全求交

用户的安全求交是多方安全计算典型的例子。比如机构想在支付宝端给直销用户,其他用户或者第三方公开用户发送红包。机构知道用户×××号,手机号,但机构不想将这些信息共享给蚂蚁。蚂蚁有用户支付宝ID与×××号的对应关系,但蚂蚁也不想把这些数据共享给机构。双方在互相不泄露信息的情况下如何求共同用户的交集并实现红包的发放?技术人员通常会想到两边加哈希。但是哈希已被破解,而且通过穷举哈希也可以碰撞出相应的×××号,哈希方法非常不安全。蚂蚁现在采用DH算法,先做哈希再做两边加密。如下图右边,假设A方是蚂蚁,B方是机构,双方都有自己的乱序ID集合。机构方生成自己的密钥,蚂蚁也生成密钥,双方分别加密,将加密之后的信息交换,再用自己的密钥加密。这时便得到了两组内容,一组用XY顺序加密,另外一组用YX加密,找到两个加密函数,与原来数据集做对比就可以得到交集。

安全求交的方式解决了大量的机构数据和蚂蚁数据相互碰撞的问题。同时,用户安全求交也可以扩展到很多场景。蚂蚁金服也在与很多政府机构进行合作,由于政府机构不能够将用户的信息泄露给第三方商业机构,所以蚂蚁金服也使用了安全求交的方式实现了这个目的。按用户的安全求交的方式原始数据没有出机构运营,也没有出蚂蚁运营,出来的集合只是经过加密的残缺数据,每方密钥只有自己密钥,且无法穷举,只能还原交集的原始ID。

三、智能营销

有了数据之后需要做营销,营销主要是围绕人做,大数据可以很好的识人懂人聚人。那理解了用户之后如何做触达分发?触发分发分为触达,触动和触发。触达指是将图片和物料曝光给用户,这是非常粗糙非常基本的触达,比如弹屏或者发消息。第二个是触动,做市场营销需要知道哪个时间点对用户有吸引力,在最具吸引力的时间点去打动用户。第三个是触发,触发是指用户真正触发的动作,是真正达成目的的时候,这时蚂蚁可以发红包或者推送做push文章做催化剂,之后做转化。其中,如何才能触动用户,发送的图片文案怎么样才能打动用户?第二个是红包大小问题。

1. 智能定价
蚂蚁金服做了很多智能定价尝试,其目的只有两个,提高转化和节省成本。如下图左上角,展示了营销费用与用户转化概率的关系。大体上,营销费用与用户转化概率是正相关的,中间有很多波动点,说明至少在局部区域有非常好的优化空间。在此基础之上,粗略的分析各个用户的状态。分别从两个维度来分析,一是拿到红包的次数,即核销多少优惠。二是交易频次是上升还是下降。如下图,第一组用户:“核销了很多优惠,但交易频次下降了”,这类用户基本可以判断为是薅羊毛的用户,所以拒绝对这类用户再发红包。第二个用户:“核销了较少优惠,但交易频次上升了”,这类用户对红包不敏感,他们有自己的决策逻辑,可能对平台很忠诚或者有自己的交易理论,所以对这类用户也不需要再发红包,因为他们根本不受红包的影响。第三组用户:“核销了较少优惠,但交易频次下降了”,这类用户非常危险,他们甚至对红包都不感兴趣。这类用户非常容易流失,所以会建议花更多的钱将他们拉回平台。第四组用户:“核销了很多优惠,但交易频次上升了”,这类用户是平台喜欢的用户,他们对营销非常敏感,所以应该投入更多的钱使第四类用户提高交易。经过以上对定价策略的分析,基本策略是从下到上,依次重视不同的用户。下图右边是利用模型和数据提高转化,节省成本。首先做对数据做特征工程,可以使用用户的自然属性数据(男女,家庭住址,触摸商圈,或者经常看什么样的理财文章)。用户在各个营销场景的数据(各类奖品发放数据,核销统计)。交易数据(淘宝交易或者线下交易,以及钱包场景数据)。蚂蚁考虑了各种各样的场景,并在模型方法上进行了很多尝试,如逻辑回归,GBDT,随机森林,DNN等。还有尝试了如计算广告学中的各种CTR模型。最终,蚂蚁在前两个月实现的结果是从整体上可以提高了30%的转化率,这个结果是对整个营销工作具有非常大的帮助。另外,蚂蚁金服在之前的工作中做了非常多的摸索,很奇妙的现象是1.9红包效果通常不如1.8红包的效果。发现只要优化了红包尾数,成本不仅可以下降,而且转化率反而可以提高。通过尾数位数金额优化,蚂蚁金服节省了5%的成本。

2. 智能图文
由于非常多的机构提议说做banner图片成本太高。所以蚂蚁金服提供了合成图文的功能,开放出来让机构使用。2018年蚂蚁在合成图文领域有很大的进步,目前可以生成成千上万张图。生成的图放在线上让用户点击反馈,筛选出最适合用户的图片。智能图文功能可以节省成本,提高效率,方便用户。因为技术的发展,用户只需在图中划几条线,就可以将图中人物扣出来。

3. 智能触达
目前文章推荐和投放的技术都已经非常成熟。在2018年,蚂蚁尝试了一个新的领域,在手机客户端做用户的点击预测。其初衷非常简单,假设在打游戏或者手机没有电时,系统发送一个push信息,这使得用户体验非常差。手机端上很多实时的状态是之前被忽略或者没有被捕捉的。用户手机端上的状态是否可以捕获到,是否涉及到用户隐私问题?这是用户的点击预测挑战所在。由于支付宝客户端并不能将所有用户端上的信息拿到,然后放在服务端做模型的构建以及点击预测,所以需要在手机客户端上进行模型构建来做点击预测。这会涉及到数据协作,即在支付宝内部有客户端和服务端协作的问题,由于隐私保护不能将数据直接给支付宝服务端进行落户,所以通过手机客户端上的实时状况的捕获,提供push效率。目前支付宝的push的打开率提高了20%。

四、运营分析

在刚开始很多金融机构还没有运营经验,蚂蚁金服希望把平台经验以及系统的数据分析能力开放给用户。运营分析与数据分析类似,基本分为以下三个步骤,发现问题,分析问题和解决问题。发现问题指的是做报表或者做看板,通过可视化方法看到数据的上升或下降,可以发现问题。分析问题通常需要细分问题,假设有指标异常,只从单个指标找问题或者靠猜想是无法分析的,需要对异常相关的各个因子做分析,才可以逐渐分析出问题所在。在解决问题部分并没有很多智能化手段,幸运的蚂蚁金服有非常多的互联网运营经验的沉淀,在解决问题这一块,可以理解为有多少智能就代表着背后有多少人工存在。

1. 流量解决方案-不知所措
由于流量波动难以定位,入口非常多,而且外部影响也很多。一天内支付宝会在各个不同的地方做活动,即使发现了异常也很难定位问题。

蚂蚁开发了一套系统,采用迭代优化的方案逐步解决流量难以定位的问题。Step1. 特征化数据。特征化简是指用什么指标代替流量。比如,一篇文章一般会用一个词或者句子来代替这篇文章,这个过程就可以称为特征化。特征化并没有很深奥,特征化一篇文章一般选择最长的句子作为特征代表这篇文章。流量问题自然也涉及到非常多的特征化工作,首先,迭代优化需要在基础数据这一步将流量特征化。

Step2. 异常检测。每秒的流量都在变化,流量是时序数据,可以采用ETS时序算法描述时序数据。ETS时序算法通常用在信息处理领域,用它的信号描述数据的模型并预测流量的大小。假设当天的流量偏离了预测值,就认为检测到了异常。异动的归因,即细分问题。这一步主要分析什么原因导致了变动。在Step1中,特征化基础数据得到了特征因子,通过查看各个特征因子的贡献度,如异动变化的相对值在绝对值以上,就可以发现哪些因子贡献了变动。

Step3. 归因决策。在前面几步的基础上,归因决策主要确定要做什么样的决策(action),蚂蚁金服主要做了一个决策引擎来支持归因决策。

Step4. 服务输出。结果导读,优化开导。

2. 活动解决方案-专人专项,各个击破

蚂蚁金服之前做过很多活动,都是以完全开放式的方式。事实上,大部分机构花费了很高的成本而并没有得到很好的效果。蚂蚁金服总结了一个活动解决方案,按专人专项的方式,使不同用户迅速知道应该怎么做。用户分成三个等级,新用户,体验型用户和流失用户。针对三种用户分别做不同的数据分析以及活动。这个解决方案可以让机构更快更方便的去操作。对不同人群用不同的活动和不同的物料,覆盖更多的用户。

3. 活动解决方案-司南在手,三步搞定

最后是蚂蚁金服的目标方案。蚂蚁希望智能运营参谋“司南”可以根据机构不同机构的问题,推荐人群,发现哪些人群出现了问题。推荐权益方案,如定多少规则和使用哪些算法。给出预测的预期,即所需要的成本和能够实现的效果。最后进行投放。

4. 自动化运营设想

蚂蚁金服试图在近两年内将运营往自动化方向引进。运营中有非常多的事件,人群和运营工具,所以蚂蚁金服希望制定出一些自动化运营的方案,比如下图中,用户进来之后给他做一个投教,通过自定义的分支自动化的运营用户。自动化运营可以回应前面提到的运营同学很忙的问题。假设运营往自动化运营方向逐渐推进引进,运营工作就可以变得更加轻松。

点击阅读更多,查看更多详情

原文地址:https://blog.51cto.com/14164343/2353967

时间: 2024-11-05 23:35:54

大数据驱动的运营创新和探索的相关文章

在大数据驱动下必须加强积极防御“网络武器”的研发工作

"美国"网络武器"的研究已多达2千多种,其中最值得注意的是,"震网"病毒是世界上首个专门针对工业控制系统编写的破坏性病毒,被称为"网络空间的精确制导武器".它能够利用Windows系统和西门子SIMATIC WinCC系统的漏洞进行攻击.攻击西门子公司控制系统的数据采集与监视控制系统(SCADA),该系统广泛应用于能源.交通.水利.石油化工等领域,实现生产过程控制与调度的自动化."震网"病毒侵入系统后,对可编程逻辑控

数智化时代,购物中心运营模式新探索

「每个人都想要更好的生活.」 商业经营的本质正是去理解.发现.挖掘.创造消费者的需求,提供所需的商品与服务,为消费者带来更美好的生活. 以往,经营者以经验建立对消费者的认知,用调研推测消费者的偏好与动机,而在DT时代,他们有了好帮手--大数据与人工智能将为企业提供更有依据的运营发展决策,帮助企业洞察消费者的潜在需求,洞见未来. 在2019年云栖大会<数智商业论坛>,奇点云有幸邀请到了解百集团的数字运营中心总监乔龙翔先生,为我们分享购物中心数智化转型与运营模式的新探索. 解百集团的数字运营中心总

盘点当下大热的 7 大 Github 机器学习『创新』项目

最顶尖的Github机器学习项目 1. PyTorch-Transformers(NLP) 传送门:https://github.com/huggingface/pytorch-transformers 自然语言处理(NLP)的力量令人叹服.NLP改变了文本的处理方式,几乎到了无法用语言描述的程度. 在最先进的一系列NLP库中,PyTorch-Transformers出现最晚,却已打破各种NLP任务中已有的一切基准.它最吸引人的地方在于涵盖了PyTorch实现.预训练模型权重及其他重要元素,可以

大数据服务运营之数据采集

数据采集过程包括集成.导入.格式化. 数据采集过程中首先集成来自不同来源的数据.数据集成要考虑存储架构.采集方式.接口方式.采集周期等. 在存储架构方面,可以考虑在数据源侧设置数据暂存区(Staging Area),也可以考虑在采集平台侧设置的暂存区.靠根据数据量和累计速度来设置合理大小的数据暂存区,防止数据溢出. 在存取方式方面,可以根据应用的需要采用不同的存取方式.采集方式包括单个采集和批量采集两种类型,对于数据量小.时效性要求高的应用,可以采用单个采集的方式,当数据形成后可以立即同步到数据

大数据生态之数据处理框架探索

数据处理框架 数据处理是一个非常宽泛的概念,数据处理框架在数据架构中,主要是用于数据移动和分析这两大功能当中.对于数据移动,有离线数据移动和实时数据移动,也可以叫做是批量数据移动和流式数据移动.而对于分析这一块,有离线数据分析和实时数据分析,也可以称作是批量数据分析和流式数据分析.离线和实时,批量和流式,针对这两种不同的形式,就出现了多种不同的数据处理框架.有批量的数据处理框架,有流式的数据处理框架,也有批流融合的框架. 批量数据处理框架 批量数据处理框架最经典的就是 mapreduce 了,这

柏林森:购物中心需要大数据,场景化营销是着力点

购物中心精细化运营势在必行 虽然线上零售对线下零售造成很大的冲击,但在零售总额实际比例中,线下零售占比高达90%,而线上零售只占10%.展望未来,线下零售依然会占零售的重要地位,因为我们每个人都会有一个物理的身体,物理便利性和物理体验性这两个支撑点足以支撑线下零售长远发展.物里体验即我们身体体验,对吃喝玩乐.生活娱乐服务我们都需要我们物理的身体去体验,而这些服务在线上我们是无法切身体验到的.这种纯体验的零售业态典型代表就是购物中心,它将越来越往全体验式发展. 越来越多的报告证明,消费者逐渐回归线

奇点云行业观察 | 购物中心如何实现高质量数据采集?

?脸识别是线下零售数字化升级的核心抓手,再怎么强调也不为过,?脸算法的升级和智能硬件的普及将真正把Mall的数字化从概念走进现实.抓住她的脸,记住她的路线, 走进她的心田,Mall的运营数字化才能真正登堂入室,请记住一点,有想法做好线下Mall生态的朋友,你要谨慎的不是万达,不是吾悦广场,是BAT等互联网巨头!(本?需要你花费5分钟阅读,?货不解释) 近些年,虽然线上零售对线下零售造成很大的冲击,但在零售总额实际比例中,线下零售占比高达90%,而线上零售只占10%.展望未来,线下零售依然会占零售

认清自己的主干,不能大钱小钱都同等抓

一.阿里投资 阿里集团长袖善舞.业界一系列的战略投资.并购.合纵连横 零售:上海宝尊(代运营).菜鸟(仓储物流).日日顺物流(大家电/三四线下沉).银泰(O2O零售).生活:美团(生活服务).口碑.丁丁移动:新浪微博(移动/SNS).陌陌(移动/IM SNS).高德地图(移动/本地生活服务).墨迹天气.友盟文化:文化中国(影视制作投资).优土(影视传播).虾米(音乐).绿城足球.绿城教育健康:中信21世纪(商品质保/进出口质保).绿城医疗旅游:穷游网云:万网(云平台) 二.阿里主营 国内批发渠道

AI“文化宴”,易碎的市场寻求新的突破

2019年5月16日,以"智能新时代:进展.策略和机遇"为主题的第三届世界智能大会在天津梅江会展中心盛大开幕.本届智能大会力邀众多国内外知名企业参展,与会嘉宾大咖云集,通过"会展赛+智能体验""四位一体"的国际化平台向世界展示智能发展的新高度.餐宴网作为天津互联网本土企业代表参与其中,并为与会者带来一场有温度的中国特色"宴"文化,与来宾一起见证智能新时代,产业互通所带给我们新的生活方式.? 将科技赋予温度 打造中国式 &quo