第2章 利用用户行为数据

本笔记为自己学习之用,对笔记内容感兴趣的读者还请购买正版书籍《推进系统实践》,尊重作者著作权益!

2.1 用户行为数据简介

2.2 用户行为分析

  2.2.1 用户活跃度和物品流行度的分布

  Power Law,长尾分布

  2.2.2 用户活跃度和物品流行度的关系

    基于用户行为数据设计的推荐算法一般称为协同过滤算法,比如:

    1.基于邻域的方法(neighborhood-based)

    2.隐语义模型(latent factor model)

    3.基于图的随机游走算法(random walk on graph)      

2.3 实验设计和算法评测
   2.3.1 数据集
   2.3.2 实验设计
   2.3.3 评测指标:准确率/召回率(Recall/Precision)

2.4 基于邻域的算法(基于统计,没有学习过程)
  2.4.1 基于用户的协同过滤算法(反应和用户兴趣相似小群体热点)

    1.找个和目标用户兴趣相似的用户集合(用户相似度矩阵)

      Jaccard、余弦相似度,物品-用户倒排表

      算法改进:对冷门物品采取过相同的行为更能说明他们兴趣相似度,惩罚热门物品

    2.找到这个集合中用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。

    缺点:

      1.用户兴趣相似度矩阵随用户数增大,其运算时间复杂度和空间复杂度和用户数近似平方关系;

      2.很难对推荐结果做出解释。

   2.4.2 基于物品的协同过滤算法(维系用户的历史兴趣,反应用户的兴趣传承)

      1.计算物品之间的相似度(物品相似度矩阵);

       Wij = |N(i)∩N(j)| / |N(i)|, 惩罚热门物品,Wij = |N(i)∩N(j)| /( |N(i)| |N(j)|)1/2,提高覆盖率,降低流行度

      2.根据物品相似度和用户历史行为给用户生成推荐列表。 

    缺点:

      1.物品相似度矩阵随物品数增大,其运算时间复杂度和空间复杂度和物品数近似平方关系;

     

      
   2.4.3 UserCF和ItemCF的综合比较

    UserCF多用于新闻推荐( 更加社会化,热门程度,时效性,更新快),如今日头条,各类新闻客服端;

     物品更新速度远快于新用户加入速度,完全可以推荐最热门的新闻给新用户。

    

     ItemCF多用于图书,电影,电子商务网站,如亚马逊,淘宝,用户兴趣比较固定和持久,物品(相似度矩阵)更新不会太快。

     长尾物品丰富,适用于用户个性化需求强烈的领域,新用户对一个物品产生行为,就可以给他推荐相关其他物品。

  
2.5 隐语义模型(Latent factor)的算法(基于机器学习)  
  2.5.1 基础算法

    具有比较好的理论基础,雅虎做得比较好

    通过隐含特征联系用户兴趣和物品

    http://blog.csdn.net/harryhuang1990/article/details/9924377

    缺点:很难实现实时的推荐,经典的LFM模型每次训练都需要扫描所有的用户行为记录,反复迭代,来计算用户隐类向量pu和物品隐类向量qi,非常耗时。

  2.5.2 基于LFM的实际系统的例子

    改进了经典LFM算法。

  2.5.3 LFM和基于邻域的方法的比较

    1.理论基础

      LFM有比较好理论基础,是一种学习方向,通过优化一个设定的指标建立最优模型;

      基于领域的算法更多是一种基于统计的方法,没有学习过程。

    2.离线计算空间复杂度

      假定M个用户,N个物品,则中间计算过程需要的存储空间:

      UserCF:O(M*M);

      ItemCF:O(N*N);

      LFM:O(F*(M+N).F为隐类数目

      在M、N很多的情况下,LFM更节约内存。

    3.离线计算的时间复杂度

      一般情况下LFM时间高于UserCF和ItemCF,因为需要迭代计算,总体上没有本质差别。

    4.在线计算时间复杂度      

      UserCF:用户有新行为,不一定造成推荐结果的立即变化

      ItemCF:  用户有新行为,一定造成推荐结果的世事变化

      LFM: 用户有新行为,推荐结果不会发生变化

    4.推荐解释     

      UserCF:不支持

      ItemCF:  很好的支持

      LFM: 不支持

2.6 基于图的模型
  2.6.1 用户行为数据的二分图表示

    
  2.6.2 基于图的推荐算法

时间: 2024-12-22 12:23:18

第2章 利用用户行为数据的相关文章

推荐系统实践(项亮)— 第2章 利用用户行为数据

2.1 用户行为数据简介 用户行为数据可分为显性反馈行为和隐性反馈行为: 用户数据的统一表示: 2.2 用户行为分析 在设计推荐算法之前需要对用户行为数据进行分析,了解数据中蕴含的一般规律可以对算法的设计起到指导作用. 用户活跃度和物品流行度 均近似符合长尾分布:e.g. 物品流行度定义:对用户产生过行为的总数:e.g. 用户活跃度定义:对物品产生过行为的总数 活跃度和流行度的关系:一般新用户倾向于浏览热门的物品,因为他们对网站还不熟悉,只能点击首页的热门物品,而老用户会逐渐开始浏览冷门的物品(

推荐系统实践(项亮)— 第4章 利用用户标签数据

标签应用:一种是让作者或专家给物品打标签:另一种是让普通用户给物品打标签(UGC).当一个用户对一个物品打上标签,这个标签一方面描述了用户的兴趣,另一方面则表示了物品的语义,从而将用户和物品联系了起来.标签,是一种重要的特征表现方式. 4.1 UGC标签系统的代表应用 标签系统的最大优势:发挥群体智力,获得对物品内容信息比较准确的关键词描述,而准确的内容信息是提升个性化推荐系统性能的重要资源. Delicious / CiteLike / 豆瓣 / Hulu 4.2 标签系统中的推荐问题 主要问

推荐系统之--- 利用用户行为数据

一.用户行为数据 一个用户行为表示为6部分,即产生行为的用户和行为的对象.行为的种类.产生行为的上下文.行为的内容和权重.用户行为的统一表示如下: user id 产生行为的用户的唯一标识item id 产生行为的对象的唯一标识behavior type 行为的种类(比如是购买还是浏览)context 产生行为的上下文,包括时间和地点等behavior weight 行为的权重(如果是观看视频的行为,那么这个权重可以是观看时长:如果是打分行为,这个权重可以是分数)behavior content

推荐系统-利用用户行为数据

用户的行为数据介绍: 用户的行为主要分为两种-显性反馈行为 和 隐性反馈行为 ,显性反馈行为主要包括 评分 和喜欢/不喜欢 ,youtube最早是使用是使用五分评价系统的,但是只有用户很不满意和特别满意的情况下才会评分,因此又把它变成了二级评分系统. 隐式反馈行为就是页面的浏览行为. 用户的行为分析: 用户的数据分布大都满足一种长尾分布,就是 每个单词出现的频率和他在热门排行榜的排名成反比.反映在网络行为上就是越是新用户越倾向于选择热门的产品越是老用户越是倾向于冷门产品 . 基于用户的行为的推荐

推荐系统读书笔记(二)利用用户行为数据

2.1 用户行为数据简介 显性反馈行为:用户明确表示对物品喜好的行为.评分.喜欢.不喜欢. 隐性反馈行为:不能明确反应用户喜好的行为.比如页面浏览.   显性反馈数据 隐性反馈数据 用户兴趣 明确 不明确 数量 较少 庞大 存储 数据库 分布式文件系统  实时读取 实时 有延迟 正负反馈 都有 只有正反馈 正反馈:用户的行为倾向于指用户喜欢的物品. 负反馈:用户的行为货币于用户不喜欢的物品. 用户行为的统一表示: user_id 产生行为的用户的唯一标识 item_id 产生行为的对象的唯一标识

干货:如何利用CRM系统数据做用户画像?

企业在使用CRM系统一段时间后,系统就会积累很大的用户数据,那这些数据有什么用呢?当然有,我们可以对数据进行分析,做用户画像,从而更了解我们的客户,帮助企业做决策. 今天智云通CRM系统小编跟大家一起聊聊如何利用CRM系统数据做用户画像. 一步步来.当我们谈到了解我们的客户(understand our member base),无论是用户类群(segmentation) 还是用户肖像(persona) ,其实说白了是对两类客户认知的判断: l 现存客户 (Existing Customer)

MySQL性能调优与架构设计——第 14 章 可扩展性设计之数据切分

第 14 章 可扩展性设计之数据切分 前言 通过 MySQL Replication 功能所实现的扩展总是会受到数据库大小的限制,一旦数据库过于庞大,尤其是当写入过于频繁,很难由一台主机支撑的时候,我们还是会面临到扩展瓶颈.这时候,我们就必须许找其他技术手段来解决这个瓶颈,那就是我们这一章所要介绍恶的数据切分技术. 14.1 何谓数据切分 可能很多读者朋友在网上或者杂志上面都已经多次见到关于数据切分的相关文章了,只不过在有些文章中称之为数据的 Sharding.其实不管是称之为数据的 Shard

用户画像数据建模方法

作者:百分点技术总监郭志金 摘自:百分点(ID: baifendian_com) 从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”.经历了12.13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术.伴随着大数据应用的讨论.创新,个性化技术成为了一个重要落地点.相比传统的线下会员管理.问卷调查.购物篮分析,大数据第一次

企业需教育业务用户重视数据安全问题

要保证数据安全需要做的大部分工作都是相对简单的,前提是我们要问自己六个关键的问题:“who, what,where, when, how, why” Who代表着不同的股东;What代表着哪些数据需要保护;Where表示存放数据的位置;When代表数据最敏感的时段,比如升级时;How代表需要做哪些事;最后Why代表数据价值与业务之间的联系.能够回答这六个问题,那么保证数据安全并提供更好的透明度这一目标就已经实现95%了. 在移动化时代,BYOD甚至被视为USB存储出现之后最大的IT安全隐患,但移