大数据时代下的用户洞察:用户画像建立(ppt版)

大数据是物理世界在网络世界的映射,是一场人类空前的网络画像运动。网络世界与物理世界不是孤立的,网络世界是物理世界层次的反映。数据是无缝连接网络世界与物理世界的DNA。发现数据DNA、重组数据DNA是人类不断认识、探索、实践大数据的持续过程。


图1 大数据发展路径

陈新河把网络画像分为行为画像、健康画像、企业信用画像、个人信用画像、静态产品画像、旋转设备画像、社会画像和经济画像等八类,并通过实践案例进行了阐释。

未来,人生的每个历程无时无刻不由数据驱动。


图2 数据驱动人生

未来,设备全生命周期也将由数据驱动。

图3 数据驱动汽车全生命周期(海略咨询)

刘译璟博士首先从百分点推荐引擎开始,深入探讨了四大引擎。

场景引擎:个性化的核心,判断用户处于哪个购物环节,有什么样的购物目标;

规则引擎:业务的核心,结合用户、场景、算法输出数据和业务KPI,决定为用户推荐哪些内容;

算法引擎:计算用户之间的相似度、商品之间的相似度、用户对商品的评分、用户分群、热门排行……

展示引擎:将推荐内容以最佳的展示方式呈现在用户面前。


推荐引擎的核心是将购物流程数据化,而其前提是将用户数据化。如何将用户数据化呢?就是用户画像。

刘译璟博士用几个生活中画像的例子生动地阐释了什么是用户画像。
用户画像的目标、方式、组织、标准和验证等几个特点。


他认为用户侧写可能更加准确的描述“用户画像”这个词,因为我们是通过有限的信息来描述一个人,而非通过全息相机照相的模式来描述一个人。


从技术角度来看,人在网络空间是一个比特流,人们认识人的方式发生重大改变,由物理空间的“相面”转变为网络空间比特流解析,更重要的是教会机器按照人类交给他的规则从这些比特流进行自动识别。能够从千万计的用户中找出金融诈骗者、恐怖分子等。

如何实现这一过程?这就需要一种类似成像技术中的像素来对人的特征进行刻画,这就是画像中的标签。


大数据用户画像其实就是对现实用户做的一个数学模型,在整个数学模型中,其核心是,怎么描述业务知识体系,而这个业务知识体系就是本体论,本体论很复杂,我们找到了一个特别朴素的实现,就是标签。建好模型以后,要在业务的实践中去检验,并且不断完善,不断丰富这个模型,来达到利用比特流对人越来越精确的理解。用户画像不是一个数学游戏,不是一个技术问题,实际上是一个业务问题。因为最核心的是你去如何理解用户,了解你的用户。它是技术与业务最佳的结合点,也是一个现实跟数据的最佳实践。

李海峰分享了百分点在用户画像方面的实践和案例。

他首先以自己为例分享了画像样例。基于他这个人可以知道他所在的城市是在北京,男性,公司在百分点,喜欢的品类是男鞋、运动鞋,喜欢的品牌有耐克、阿迪达斯等等。每一个标签都有一个权重值。可以看到,耐克的权重值比阿迪达斯更高一些。

这幅图是通过云图的方式对百分点创始人/董事长兼CEO苏萌进行的特征画像。


百分点的画像标签体系包括:人口属性、上网特征、营销特征、内容偏好、兴趣偏好等。

以手机商品属性为例,包括品牌、品类、型号、上市时间、价格、颜色、网络、操作系统、分辨率、屏幕尺寸等等。

标签管理体系具有如下特性。

有多种标识方式对用户进行识别,这就像社会生活中的身份证号码一样,只不过换成了网络空间的手机号、Cookie、IMEI、Email、微博、微信账号等,在处理过程中,这些信息都是加密的,机器知道但人不知道。

百分点用户画像逻辑架构如下图所示,通过对电商、社区、移动应用、微博、微信等多种类别的数据源进行采集,然后对用户进行画像,最终在个性化推荐、用户洞察、精准营销等方面进行应用。百分点的数据源多且庞大,服务的客户超过了1500多家,覆盖行业超过了40多个。举例来说,一个网民,他在访问一个电商A,同时又访问了一个电商B,这两个电商本身的知识体系是不一样的。比如说这个用户他访问一双鞋,他在电商A上的品类可能是鞋-男鞋-运动鞋,在网站B上可能是运动-户外-男鞋,品类描述可能是不一样的。所以百分点打造了这么一个系统,叫商品画像系统。通过这个系统,所有的标签就有了一个标签规划,之后就可以去构建这个用户在全网的用户画像标签。用户画像只是一个起点,而不是一个结束。基于此,还可以打造一系列的服务,比如精准营销、个性化推荐等。

下图是用户画像的技术架构图。我们可以看到总共分为五层:第一是数据源;第二层是数据采集服务,百分点有一堆数据采集服务,包括我们的数据探头,能够对用户的行为进行一个实时采集;第三层是数据预处理,主要是结构化;第四层是商品画像,这一块都是我们的用户画像服务。我们可以看到用户画像是分两大块,实时处理更偏重于预测用户画像的需求,离线处理更偏重于用户的长期偏好;第五是统一的数据接口,还有就是集群,上面可以接入各种各样的应用。

下图是用户标签产出流程示例。

用户在互联网上的行为主要分为电商类、社交类和媒体类。每种行为差异很大,电商类行为包括浏览、搜索、添加购物车、收藏、支付等,而社交类则是点赞、转发、评论等。

接着下一步需要对页面标签进行抽取,在做这件事情之前需要训练模型,首先准备训练数据,通过标注和规则生成,再就是对于序列集做一个序列化处理。首先会得到一个弱模型,最终得到一个强模型,然后把自己的参数都保留下来。这个时候我们会加一个决策,如果说效果不太好的话,我们会进行下一轮的优化。当这个模型设置之后,我们就可以去做预测了。我们的预测总共分为四大块,包括输入、输入预处理、预测和产出。也就是说用户这个标签已经有了,这个标签对用户的信誉度是1还是0?这个时候就到了用户行为建模。用户行为建模的背后思想主要可以认为有两大块,成本越高行为权重越高,下单就比浏览更高一些,时间越近的行为权重越高,比如我今天看了一个手机,一定比我一周前看了一次电脑权重要高一些。我们可以按场景去分,首先是产生需求,再就是决策,然后是结束,百分点基于业务考虑,实行标签权重积累的机制。

这是我们的客户某航空公司的案例,项目目的是挖掘高价值旅客,希望通过分析旅客出行偏好优化运力资源。最终百分点帮他构建了5个标签大类,75个标签小类,数万个小标签,以下是当时的一些效果截图。

刚才讲的都是百分点已经做的事情,但是百分点做得还远远不够。接下来可能会在四大方面深入思考和实践:一是不同的场景,也就是说用户在家里和在办公环境下代表的偏好是不一样的;二是用户心理学特征,比如当一个用户看一件女装的时候,她这个时候是无聊去逛还是有目的的逛,反映在标签权重上是不一样的;三是让用户主动反馈反感点,我们强调了许多,一般都是在强调用户喜欢什么,但是用户不喜欢什么,我们做得还不够,我们应该让用户主动告诉我们他不喜欢什么,比如他不喜欢吃葱,他不喜欢吃羊肉串,这样我们预测的时候会准得多;四是用户的兴趣转移快速捕获,一开始我们使用的是一个半衰期的,而且按频率细分,我们是否可以按人去分?比如按访次去分?比如针对品类手机这个标签,对于手机发烧友,可能过了一年他依然会对手机比较感兴趣,但是对于像我这种,只有想购买的时候才去看,可能我两天不看,就表示这个兴趣已经衰减为零了。

文章出处:http://www.199it.com/archives/337393.html

时间: 2024-10-13 11:38:15

大数据时代下的用户洞察:用户画像建立(ppt版)的相关文章

大数据时代下的数据挖掘与可视化展现

全世界每天都有几十亿人使用计算机.平板电脑.手机和其它数字设备产生海量数据.在这个各个行业和领域都已经被数据给渗透,数据已成为非常重要的生产因素的大数据时代,对于大数据处理和大数据挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来. 在大数据时代下,从头至尾我们都脱离不了数据挖掘.有人把数据比喻为蕴藏能量的煤矿.煤炭按照性质有焦煤.无烟煤.肥煤.贫煤等分类,而露天煤矿.深山煤矿的挖掘成本又不一样.与此类似,大数据并不在“大”,而在于“有用”.价值含量.挖掘成本比数量更为重要. 什么是数据挖

看大数据时代下的IT架构(1)业界消息队列对比

一.MQ(Message Queue) 即消息队列,一般用于应用系统解耦.消息异步分发,能够提高系统吞吐量.MQ的产品有很多,有开源的,也有闭源,比如ZeroMQ.RabbitMQ.ActiveMQ.Kafka/Jafka.Kestrel.Beanstalkd.HornetQ.Apache Qpid.Sparrow.Starling.Amazon SQS.MSMQ等,甚至Redis也可以用来构造消息队列.至于如何取舍,取决于你的需求. 由于工作需要和兴趣爱好,曾经写过关于RabbitMQ的系列博

柯南君:看大数据时代下的IT架构(6)消息队列之RabbitMQ--案例(Publish/Subscribe起航)

一.回顾 让我们回顾一下,在上几章里都讲了什么?总结如下: <柯南君:看大数据时代下的IT架构(1)业界消息队列对比> <柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍> <柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控> <柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)> <柯南君:看大数据时代下的IT架构(5)消息队列之Rab

看大数据时代下的IT架构(1)图片服务器之演进史

        柯南君的公司最近产品即将上线,由于产品业务对图片的需求与日俱增,花样百出,与此同时,在大数据时代,大流量的冲击下,对图片服务器的压力可想而知,那么今天,柯南君结合互联网的相关热文,加上自己的一点实践经验,与君探讨,与君共勉! 一.图片服务器的重要性 当前,不管哪一家网站(包括 电商行业.O2O行业.互联网行业等),不管哪一种渠道 (包括 web端,APP端甚至一些SNS应用),在大数据时代下,在内容为王的前提下,对图片的需求量越来越大,柯南君的公司是一家O2O公司,也不例外,图片

CSDN专访:大数据时代下的商业存储

原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久前,EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸采访到EMC中国的张安站,他就大数据.商业存储.Spark等给大家分享了自己的看法. 谈到大数据,张安站认为大数据本质上是两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?第一个问题,对于存储厂商来说,就

大数据时代下是数据思维重要,还是相应技术重要?

技术做到一定程度,逐步发现自己的瓶颈.不由得开始思考这一方面的问题!到底大数据时代下,是相应的数据分析技术重要,还是相应数据思维重要? 先来说数据思维吧!什么是大数据思维,个人感觉应该是互联网思维的一种.是考虑到全面,而不是局部.是考虑到多维,而不是单一维度.不是靠拍脑门做决定,而是让数据说话,用数据做决策. 先说第一点,考虑全面,而不是局部.众所周知,移动互联网催生了大数据的产生.每一个人每一天通过手机能够的数据总和会是一个巨大的量.而通过这些非结构化的数据,我们首先面对的是如何处理这些数据,

大数据时代下电子商务发展新契机

大数据时代,电子商务面临新的挑战.电商想要得到更好的发展肯定离不开数据的支持,需从电商站点设计.移动搜索.社交媒体.转化率.停留率等方面来解读大数据时代电商的关键数据. 同时,电商企业需要针对大数据进行深度的分析和挖掘,从而为自身创造巨大的商机.随着大数据所爆发出的巨大潜力,在如今的互联网经济时代,电商企业正在用大数据思维与技术影响着企业业务决策和商业推广思路.可以预测的是,互联网平台大数据分析,必将在未来为电商企业精准营销带来融合性影响. 电商企业在后台如果能对海量的用户行为数据进行快速分析,

柯南君:看大数据时代下的IT架构(1)业界消息队列对比

一.MQ(Message Queue) 即消息队列,一般用于应用系统解耦.消息异步分发,能够提高系统吞吐量.MQ的产品有很多,有开源的,也有闭源,比如ZeroMQ.RabbitMQ.ActiveMQ.Kafka/Jafka.Kestrel.Beanstalkd.HornetQ.Apache Qpid.Sparrow.Starling.Amazon SQS.MSMQ等,甚至Redis也可以用来构造消息队列.至于如何取舍,取决于你的需求. 由于工作需要和兴趣爱好,曾经写过关于RabbitMQ的系列博

大数据时代下EDM邮件营销的变革

根据研究,今年的EDM邮件营销的邮件发送量比去年增长了63%,许多方法可以为你收集用户数据,这些数据可以帮助企业改善自己在营销中的精准度,相关性和执行力. 最近的一项研究表明,中国800强企业当中超过一半的企业仍然使用过去的经验和直觉进行决策.只有11%的企业用数据来支持这些决定,而“数据”在这些企业中仍是不重要的资源. 目前大部分发送的邮件可以用两个词来诠释,一个是“批量”,另一个是“爆炸”,而在用户那里,他们只感觉到了“炸”——没错,他们在被这一大堆不相关的邮件狂轰滥炸,变得焦头烂额,从而对

柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)

一.回顾 让我们回顾一下,在上几章里都讲了什么?总结如下: <柯南君:看大数据时代下的IT架构(1)业界消息队列对比> <柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍> <柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控> <柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)> 二.Work Queues(using the Java Cl