大数据分析--用户画像

从去年还在北京工作的时候就开始不断的听说,用户画像、用户画像,而且,有个项目,项目领导美其名曰:用户画像,这么长时间,也没有真正的思考过什么叫用户画像。前几天看到一篇关于这方面的文章,决定整理消化,希望通过这种方式可以成为我自己的知识。

一、什么是用户画像(user profile)

用户画像,简而言之就是对用户信息的标签化,如图1所示。

二、为什么需要用户画像

用户画像的核心工作是为用户打标签,一方面,标签化是对用户信息的结构化处理,方便计算机识别和处理,方便进行分类统计(男女比例)、数据挖掘(利用关联规则计算喜欢红酒和喜欢运动品牌的关系)、推荐引擎、广告精准投放等;另一方面,标签本身具有准确性和非二义性,有利于人工整理、统计、分析;

三、如何构建用户画像

标签:人为规定的高度精炼的标识,如年龄段标签:25-35岁,地域标签:北京,标签本身无需进行文本预处理工作;

用户信息一般可以分为两类:静态信息和动态信息。

静态信息:例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。

动态信息:用户不断变化的行为和兴趣信息,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大。

以下从两个行业构建用户的动态标签:

微博用户兴趣标签:

1、标签来源:

用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外,他关注用户的标签也会传递到该用户身上。如图2所示(蓝色实线代表关注关系,橙色虚线代表兴趣标签来源)。

2、标签权重:

在收集到一个用户可能存在的标签后,还需要给标签赋一定的权重,用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量,标签的传递路径,转发关系,标签的本身,以及标签与用户之间的共现关系都会考虑在内。

不同质量的用户自身产生的标签权重不一样,质量越高,认为该标签的可信度越高,无论是将该标签赋给自己还是传递出去的时候其权重值越高。标签的传递路径主要是针对基于关注关系的标签传递,亲密度比较高的关注用户传递过来的标签权重值会比较高。标签是来自于用户的原创还是其转发的微博,权重值会有区别,一般来说原创的权重会高于转发权重。如果标签本身是一个非常常见的词,那么它用于刻画用户的兴趣的区分性是比较差的,相反如果是一个长尾词,则区分性较强。出于这样的考虑,越是长尾词,标签的权重值会越高。标签与用户的共现关系是指用户和该标签是否经常共同出现,评价的是两者的关联性。关联性越高,则标签的权重值越高。综合上述的因素,一个标签对于特定用户的权重值可以大致表示为:标签权重
= (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。

3、时效性:(时间衰减函数)

随着时间的变化,用户的兴趣会发生转移,时间越久远,标签的权重应该相应的下降,距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑,一般会在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成如图3所示的指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。

此外,针对用户的兴趣,还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签,并计算标签的权重。短期兴趣更新周期会较长期兴趣更短,兴趣更集中,但是能够比较及时地反应用户兴趣的变化。

4、从兴趣到能力

然而,用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。因此,在挖掘了用户兴趣标签的基础上,还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。

微博中的关注关系可以认为是一种认证,具有相同兴趣的用户之间的关注则有可能是兴趣相投(当然也可能不是,但毕竟有一定的指导性),那么将具有相同兴趣标签的用户提出来,通过关注关系构成一个图,被认证得最多的用户(被关注边指向得最多)被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。

电商用户兴趣标签

1、标签来源

电商网站的用户标签主要来源于用户浏览过的网页内容;比如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。则用户标签为:红酒,长城;

2、标签权重:

电商网站的用户标签主要受以下几方面的因素影响:

(1)时间因素:时间包括两方面信息:时间戳+时间长度,时间戳表征了用户的行为时间点,时间长度表征了用户在某一页面的停留时间。通过时间因素可以确定权重计算的时间衰减因子(时间戳),比如该用户行为发生在昨天则衰减因子为0.95。

(2)地点,即用户接触点(touch point):包含两层信息(网址+内容)。

网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面,网址决定了网址权重因子。

内容:每个url链接中的内容。可以是单品的相关信息,比如:类别、品牌、描述、属性、网址信息等,通过页面内容可以确定用户的标签,如红酒、长城、干红等。

例如:用户在京东商城浏览红酒信息和在品尚红酒网浏览红酒信息,表现出对红酒的喜好程度不同,所以网址权重因子也不同。

(3)用户行为:对于电商网站用户有以下典型行为:添加购物车、搜索、评论、购买、收藏等,对于不同的用户行为,权重不同。

综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识
+ 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

电商用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:

标签权重=衰减因子×行为权重×网址子权重

如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

  • 标签:红酒,长城
  • 时间:因为是昨天的行为,假设衰减因子为:r=0.95
  • 行为类型:浏览行为记为权重1
  • 地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)

假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。

则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。

以上并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战
0.5、港台 0.3。

最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户
1.0。

参考文章地址:http://blog.csdn.net/youngspy23/article/details/51093498

时间: 2024-08-04 04:02:19

大数据分析--用户画像的相关文章

大数据用户画像解决方案

课程下载地址: https://pan.baidu.com/s/1faMR7Ezqp3OyhWODvPszxA 提取码: vw8x 课程特色: 规划全面:内容涵盖用户标签指标体系.数据分析.数据开发.ETL.搭建开发环境.kafka和hbase等常用大数据组件的介绍.画像的产品形态.以及如何应用用户标签和效果评估 实操性强:每章案例都进行详细的分析和开发过程讲解,附有相应的分析报告.文档以及代码.通过在搭建的虚拟机环境中执行任务,帮助学习者更好地理解工程上的实现方式和实现细节 课程目录: 第1章

大数据时代下的用户洞察:用户画像建立(ppt版)

大数据是物理世界在网络世界的映射,是一场人类空前的网络画像运动.网络世界与物理世界不是孤立的,网络世界是物理世界层次的反映.数据是无缝连接网络世界与物理世界的DNA.发现数据DNA.重组数据DNA是人类不断认识.探索.实践大数据的持续过程. 图1 大数据发展路径 陈新河把网络画像分为行为画像.健康画像.企业信用画像.个人信用画像.静态产品画像.旋转设备画像.社会画像和经济画像等八类,并通过实践案例进行了阐释. 未来,人生的每个历程无时无刻不由数据驱动. 图2 数据驱动人生 未来,设备全生命周期也

技术培训 | 大数据分析处理与用户画像实践

孔淼:大数据分析处理与用户画像实践 直播内容如下: 今天咱们就来闲聊下我过去接触过的数据分析领域,因为我是连续创业者,所以我更多的注意力还是聚焦在解决问题和业务场景上.如果把我在数据分析的经验进行划分的话,刚好就是我所经历的两次创业阶段,第一阶段是"第三方数据分析",第二阶段是"第一方数据分析".所以今天咱们就从这两点来谈谈数据分析. 第三方数据分析 先聊聊"第三方数据分析",这个主要结缘于我给开复做微博数据挖掘. 起因:给开复做"微博

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积:另一方面,在运营商涉足的消费金融领域,对手

大数据可视化分析电商快销用户画像分析系统开发

大数据的时代,每一个企业都希望从用户数据中分析出有价值的信息.尤其是电商行业,用户画像分析可以让商品推广范围更加精准,从而提升销量.大数据分析系统可以从海量数据分析预测出商品的发展的趋势,提高产品质量,同时提高用户满意度. 用户画像也叫用户信息标签化,根据用户社会属性.生活习惯和消费行为等信息而抽象出的一个标签化的用户模型.在电商的大数据中,可以通过用户的消费习惯,在电商平台上填的信息分析出大致的标签. 大数据可视化电商用户画像分析系统的优势: 1.精准营销:通过用户画像分析后,可以针对潜在用户

大数据分析如何创建最佳的移动应用用户体验

如今,越来越多的人使用移动应用程序.而移动应用将在未来成为一个价值数十亿美元的产业.大数据可以帮助企业构建最佳的用户体验. 多年来,开发移动应用程序的技术一直在不断发展,这实际上为非技术方面的重大革命铺平了道路,并且这一切都与大数据有关. 用户定期生成的大量数据可以帮助开发人员创建更多更好的移动应用程序.以下对大数据如何激励移动应用领域的重大突破进行探讨. 采用用户体验构建最好的移动应用程序 一个流行的移动应用程序必须易于使用,运行快速,并具有吸引力.除此之外,它必须尽可能满足用户的需求.因此,

大数据项目之dmp用户画像

一.互联网广告精准投放介绍 (1)dsp的展示原理: ① 用户浏览媒体网站,媒体网站通过添加的 SSP 代码向 AdExchange 发起广告请求.② AdExchange 将这次请求的关键信息(如域名 URL.IP.Cookie 等)同时发送给多家 DSP,我们把这个请求称为 Bid Request.③ DSP 收到请求后通过 Cookie.IP.URL 等信息决策是否参与竞价,DSP 可以通过 Cookie 来查询此用户在自己系统中的历史行为来推算人口属性和兴趣爱好,如果DSP没有这个能力,

电商大数据应用之用户画像

一.?课程目标1.1 了解用户画像是什么1.2 用户画像的作用是什么1.3 学会使用SparkSQL构建用户画像二.?前言 大数据时代已经到来,企业迫切希望从已经积累的数据中分析出有价值的东西,而用户行为的分析尤为重要.利用大数据来分析用户的行为与消费习惯,可以预测商品的发展的趋势,提高产品质量,同时提高用户满意度.本课程是基于大型电商公司的真实用户画像中提练出的精华内容,旨在培养学员了解用户画像的内容,掌握构建用户画像的方法. 三.?初识用户画像 右边是一个人的基本属性,通过一个人的基本属性我

电商大数据学习笔记:用户画像

1.用户画像:用户信息标签化. 2.用户画像可以做什么? ——内容正在整理中 3.show命令用法 show tables 显示所有表 例:show table like ‘…_pre_food’; show partitions 显示所有分区 例:show partitions fdm_prd_food partition(dt=’2015-01-01’); show table extended 显示扩展信息 例:show table extended like fdm_ord_order;