如果把全球所有的移动电话和用户的通话记录放在一起,是大数据吗?
所有门户网站,几个大的门户网站等每天产生的新闻,是大数据吗?
第一个数据源是大数据。因为我们之间的通话、交往的过程,它是一个网络状的,是超线性增长的,并且我们通话内容是非常复杂的,具有复杂的数据结构,包括我们的时间及方方面面的算法。
第二如果只是每天产生的新闻,它不算大数据,因为这个量有限,每天也就是大概几十万、上百万条,而且每天增长也是有限的。但是,如果把用户的浏览记录甚至把新闻的内容,比如对这个文本做分解,把文本之间产生互相的联系的话,这就算大数据。
个性化推荐技术
个性化推荐技术可以带来非常大的效果上的提升。它最大的优势就在于新用户的转化率,尤其是新用户在头几个访问的时候,如果你能抓住他的兴趣,迅速给他推荐一些他感兴趣的产品,或者是感兴趣的信息,它的转化率将大大提升。
在做社交图谱时,发现其比兴趣图谱要复杂的多,它的复杂其实来源于一个是人与人关系的复杂性。人跟产品之间的关系相对比较简单,我喜欢这个产品,我不喜欢这个产品,这个描述大概能描述你80%的情况。
但是人跟人之间的关系就很复杂,没有一个简单的或者清晰的模型去描述这个复杂性,或者人与人之间关系很难用单一纬度描述。第二人与人之间交互在网站上表现成文字,现在互相回帖或者互相说话等,这个语义的复杂性也不是现在计算机技术能够完全掌握,或者完全攻克的一个难题,所以语义的复杂性也带来描述人和人之间关系的复杂性。
兴趣图谱跟社交图谱的区别
兴趣图谱中的人群更多是一个生人的网络,大家来到兴趣图谱之前互相之间不太认识,依据兴趣来结合新的网络。但是,社交图谱更多是熟人的网络,尤其是强社交的关系,像大家现在用的微信,手机里的通讯录等等,这个是熟人的关系。不同人群它表现出的特点其实也不太一样。
社交图谱在黏性上和频度上都很高,但它在持久性上,有时候有的产品比较高,但是有的产品其实也没有那么高。兴趣图谱一般来说黏性和频度都没有那么高,但是它的持久性会比较好一些,因为兴趣一般都会是长期的兴趣。依据这样不同的特点,在我们做个性化推荐的时候可以有不同的一些考量。
如果你有上亿量级的用户,每个用户细分的兴趣大概有上千种,整个用户的兴趣。每个用户相对比较强的社交的关系有几百种。乘起来就会是一个非常大的数据量,也即我们会用几十万的维的向量描述一个人,甚至摆成一千量级的数据描述一个人,我们还要找人跟人之间的关系,在数据上就会是非常大的一个挑战。
目前很多线上推荐系统是除融合兴趣图谱和社交图谱外,给用户一个引导,能够帮助用户发现它真正有价值的东西。
其实现在个性化推荐往往很难解决一个“惊喜”问题。主要要解决的就是帮助用户进一步探索他未知的,而且对他很有用的,能给他带来惊喜的推荐领域。
原文地址:http://blog.51cto.com/tcit1987/2094076