大数据时代下的社交图谱与兴趣图谱

如果把全球所有的移动电话和用户的通话记录放在一起,是大数据吗?

所有门户网站,几个大的门户网站等每天产生的新闻,是大数据吗?

第一个数据源是大数据。因为我们之间的通话、交往的过程,它是一个网络状的,是超线性增长的,并且我们通话内容是非常复杂的,具有复杂的数据结构,包括我们的时间及方方面面的算法。

第二如果只是每天产生的新闻,它不算大数据,因为这个量有限,每天也就是大概几十万、上百万条,而且每天增长也是有限的。但是,如果把用户的浏览记录甚至把新闻的内容,比如对这个文本做分解,把文本之间产生互相的联系的话,这就算大数据。

个性化推荐技术

个性化推荐技术可以带来非常大的效果上的提升。它最大的优势就在于新用户的转化率,尤其是新用户在头几个访问的时候,如果你能抓住他的兴趣,迅速给他推荐一些他感兴趣的产品,或者是感兴趣的信息,它的转化率将大大提升。

在做社交图谱时,发现其比兴趣图谱要复杂的多,它的复杂其实来源于一个是人与人关系的复杂性。人跟产品之间的关系相对比较简单,我喜欢这个产品,我不喜欢这个产品,这个描述大概能描述你80%的情况。

但是人跟人之间的关系就很复杂,没有一个简单的或者清晰的模型去描述这个复杂性,或者人与人之间关系很难用单一纬度描述。第二人与人之间交互在网站上表现成文字,现在互相回帖或者互相说话等,这个语义的复杂性也不是现在计算机技术能够完全掌握,或者完全攻克的一个难题,所以语义的复杂性也带来描述人和人之间关系的复杂性。

兴趣图谱跟社交图谱的区别

兴趣图谱中的人群更多是一个生人的网络,大家来到兴趣图谱之前互相之间不太认识,依据兴趣来结合新的网络。但是,社交图谱更多是熟人的网络,尤其是强社交的关系,像大家现在用的微信,手机里的通讯录等等,这个是熟人的关系。不同人群它表现出的特点其实也不太一样。

社交图谱在黏性上和频度上都很高,但它在持久性上,有时候有的产品比较高,但是有的产品其实也没有那么高。兴趣图谱一般来说黏性和频度都没有那么高,但是它的持久性会比较好一些,因为兴趣一般都会是长期的兴趣。依据这样不同的特点,在我们做个性化推荐的时候可以有不同的一些考量。

如果你有上亿量级的用户,每个用户细分的兴趣大概有上千种,整个用户的兴趣。每个用户相对比较强的社交的关系有几百种。乘起来就会是一个非常大的数据量,也即我们会用几十万的维的向量描述一个人,甚至摆成一千量级的数据描述一个人,我们还要找人跟人之间的关系,在数据上就会是非常大的一个挑战。

目前很多线上推荐系统是除融合兴趣图谱和社交图谱外,给用户一个引导,能够帮助用户发现它真正有价值的东西。

其实现在个性化推荐往往很难解决一个“惊喜”问题。主要要解决的就是帮助用户进一步探索他未知的,而且对他很有用的,能给他带来惊喜的推荐领域。

原文地址:http://blog.51cto.com/tcit1987/2094076

时间: 2024-08-30 17:30:03

大数据时代下的社交图谱与兴趣图谱的相关文章

大数据时代下电子商务发展新契机

大数据时代,电子商务面临新的挑战.电商想要得到更好的发展肯定离不开数据的支持,需从电商站点设计.移动搜索.社交媒体.转化率.停留率等方面来解读大数据时代电商的关键数据. 同时,电商企业需要针对大数据进行深度的分析和挖掘,从而为自身创造巨大的商机.随着大数据所爆发出的巨大潜力,在如今的互联网经济时代,电商企业正在用大数据思维与技术影响着企业业务决策和商业推广思路.可以预测的是,互联网平台大数据分析,必将在未来为电商企业精准营销带来融合性影响. 电商企业在后台如果能对海量的用户行为数据进行快速分析,

柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)

一.回顾 让我们回顾一下,在上几章里都讲了什么?总结如下: <柯南君:看大数据时代下的IT架构(1)业界消息队列对比> <柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍> <柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控> <柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)> 二.Work Queues(using the Java Cl

看大数据时代下的IT架构(1)业界消息队列对比

一.MQ(Message Queue) 即消息队列,一般用于应用系统解耦.消息异步分发,能够提高系统吞吐量.MQ的产品有很多,有开源的,也有闭源,比如ZeroMQ.RabbitMQ.ActiveMQ.Kafka/Jafka.Kestrel.Beanstalkd.HornetQ.Apache Qpid.Sparrow.Starling.Amazon SQS.MSMQ等,甚至Redis也可以用来构造消息队列.至于如何取舍,取决于你的需求. 由于工作需要和兴趣爱好,曾经写过关于RabbitMQ的系列博

柯南君:看大数据时代下的IT架构(6)消息队列之RabbitMQ--案例(Publish/Subscribe起航)

一.回顾 让我们回顾一下,在上几章里都讲了什么?总结如下: <柯南君:看大数据时代下的IT架构(1)业界消息队列对比> <柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍> <柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控> <柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)> <柯南君:看大数据时代下的IT架构(5)消息队列之Rab

柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)

一.回顾 让我们回顾一下,在上几章里都讲了什么?总结如下: <柯南君:看大数据时代下的IT架构(1)业界消息队列对比> <柯南君:看大数据时代下的IT架构(2)消息队列之RabbitMQ-基础概念详细介绍> <柯南君:看大数据时代下的IT架构(3)消息队列之RabbitMQ-安装.配置与监控> 二.起航 本章节,柯南君将从几个层面,用官网例子讲解一下RabbitMQ的实操经典程序案例,让大家重新回到经典"Hello world!"(The simpl

看大数据时代下的IT架构(1)图片服务器之演进史

        柯南君的公司最近产品即将上线,由于产品业务对图片的需求与日俱增,花样百出,与此同时,在大数据时代,大流量的冲击下,对图片服务器的压力可想而知,那么今天,柯南君结合互联网的相关热文,加上自己的一点实践经验,与君探讨,与君共勉! 一.图片服务器的重要性 当前,不管哪一家网站(包括 电商行业.O2O行业.互联网行业等),不管哪一种渠道 (包括 web端,APP端甚至一些SNS应用),在大数据时代下,在内容为王的前提下,对图片的需求量越来越大,柯南君的公司是一家O2O公司,也不例外,图片

CSDN专访:大数据时代下的商业存储

原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久前,EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸采访到EMC中国的张安站,他就大数据.商业存储.Spark等给大家分享了自己的看法. 谈到大数据,张安站认为大数据本质上是两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?第一个问题,对于存储厂商来说,就

大数据时代下是数据思维重要,还是相应技术重要?

技术做到一定程度,逐步发现自己的瓶颈.不由得开始思考这一方面的问题!到底大数据时代下,是相应的数据分析技术重要,还是相应数据思维重要? 先来说数据思维吧!什么是大数据思维,个人感觉应该是互联网思维的一种.是考虑到全面,而不是局部.是考虑到多维,而不是单一维度.不是靠拍脑门做决定,而是让数据说话,用数据做决策. 先说第一点,考虑全面,而不是局部.众所周知,移动互联网催生了大数据的产生.每一个人每一天通过手机能够的数据总和会是一个巨大的量.而通过这些非结构化的数据,我们首先面对的是如何处理这些数据,

大数据时代下的数据挖掘与可视化展现

全世界每天都有几十亿人使用计算机.平板电脑.手机和其它数字设备产生海量数据.在这个各个行业和领域都已经被数据给渗透,数据已成为非常重要的生产因素的大数据时代,对于大数据处理和大数据挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来. 在大数据时代下,从头至尾我们都脱离不了数据挖掘.有人把数据比喻为蕴藏能量的煤矿.煤炭按照性质有焦煤.无烟煤.肥煤.贫煤等分类,而露天煤矿.深山煤矿的挖掘成本又不一样.与此类似,大数据并不在“大”,而在于“有用”.价值含量.挖掘成本比数量更为重要. 什么是数据挖