推荐系统实践(项亮)— 第4章 利用用户标签数据

  标签应用:一种是让作者或专家给物品打标签;另一种是让普通用户给物品打标签(UGC)。当一个用户对一个物品打上标签,这个标签一方面描述了用户的兴趣,另一方面则表示了物品的语义,从而将用户和物品联系了起来。标签,是一种重要的特征表现方式。

4.1 UGC标签系统的代表应用

  标签系统的最大优势:发挥群体智力,获得对物品内容信息比较准确的关键词描述,而准确的内容信息是提升个性化推荐系统性能的重要资源。

  • Delicious / CiteLike / 豆瓣 / Hulu

4.2 标签系统中的推荐问题
  主要问题有:1. 如何利用用户打标签的行为为其推荐物品(基于标签的推荐)

        2. 如何在用户给物品打标签时为其推荐适合该物品的标签(标签推荐)

  (1)用户为什么进行标注?

  两个维度:社会维度,便于其他人找到信息;功能维度,方便自己将来查找。

  (2)用户如何打标签?

  标签的流行度:用户在物品上打这个标签的次数。

  标签的流行度分布也呈现非常典型的长尾分布。

  (3)用户打什么样的标签?

  • 表明物品是什么
  • 表明物品的种类
  • 表明谁拥有物品
  • 表达用户的观点
  • 用户相关的标签
  • 用户的任务

4.3 基于标签的推荐系统

  (u,i,b)表示用户u给物品i打上标签b。一个简单的基于标签的推荐算法:

    1. 统计每个用户最常用的标签。
    2. 对于每个标签,统计被打过这个标签次数最多的物品。
    3. 对于一个用户,首先找到他常用的标签,然后找到具有这些标签的最热门物品推荐给这个用户。
      那么用户u对物品i的兴趣公式为:

  算法的改进:

  (1)对热门的惩罚

  上述的公式倾向于给热门标签对应的热门物品很大的权重,因此会造成推荐热门的物品给用户,从而降低推荐结果的新颖性。并且,给热门标签过大的权重,从而不能反应用户个性化的兴趣。书中借鉴了TF-IDF的思想,将公式改进为:

  适当惩罚热门标签和热门物品,在增进推荐结果个性化的同时,并不会降低推荐结果的离线精度。

  (2)数据稀疏性

  对于新用户或者新物品B(u)∩B(i)中的标签会很少,为了提高推荐的准确率,我们可能要对标签集合做扩展,比如若用户曾经用过“推荐系统”这个标签,我们可以将这个标签的相似标签也加入到用户标签集合中,比如“个性化”、“协同过滤”等标签。标签扩展的本质是对每个标签找到和它相似的标签,也就是计算标签之间的相似度

  (3)标签清理

  不是所有的标签都能反应用户的兴趣,要将这一部分标签清理掉。网站通过让用户对标签进行反馈,融合专家和广大用户的知识。

  (4)基于标签的推荐解释

  标签云:提高推荐结果多样性;提供解释功能。

4.4 给用户推荐标签

  (1)作用:方便用户输入标签;提高标签质量;

  (2)方法:

  • 推荐物品上最热门的标签;
  • 推荐用户常使用的标签;
  • 将前两项进行加权

原文地址:https://www.cnblogs.com/eilearn/p/9876125.html

时间: 2024-11-06 03:45:11

推荐系统实践(项亮)— 第4章 利用用户标签数据的相关文章

推荐系统实践(项亮)— 第2章 利用用户行为数据

2.1 用户行为数据简介 用户行为数据可分为显性反馈行为和隐性反馈行为: 用户数据的统一表示: 2.2 用户行为分析 在设计推荐算法之前需要对用户行为数据进行分析,了解数据中蕴含的一般规律可以对算法的设计起到指导作用. 用户活跃度和物品流行度 均近似符合长尾分布:e.g. 物品流行度定义:对用户产生过行为的总数:e.g. 用户活跃度定义:对物品产生过行为的总数 活跃度和流行度的关系:一般新用户倾向于浏览热门的物品,因为他们对网站还不熟悉,只能点击首页的热门物品,而老用户会逐渐开始浏览冷门的物品(

第2章 利用用户行为数据

本笔记为自己学习之用,对笔记内容感兴趣的读者还请购买正版书籍<推进系统实践>,尊重作者著作权益! 2.1 用户行为数据简介 2.2 用户行为分析 2.2.1 用户活跃度和物品流行度的分布 Power Law,长尾分布 2.2.2 用户活跃度和物品流行度的关系 基于用户行为数据设计的推荐算法一般称为协同过滤算法,比如: 1.基于邻域的方法(neighborhood-based) 2.隐语义模型(latent factor model) 3.基于图的随机游走算法(random walk on gr

推荐系统之--- 利用用户行为数据

一.用户行为数据 一个用户行为表示为6部分,即产生行为的用户和行为的对象.行为的种类.产生行为的上下文.行为的内容和权重.用户行为的统一表示如下: user id 产生行为的用户的唯一标识item id 产生行为的对象的唯一标识behavior type 行为的种类(比如是购买还是浏览)context 产生行为的上下文,包括时间和地点等behavior weight 行为的权重(如果是观看视频的行为,那么这个权重可以是观看时长:如果是打分行为,这个权重可以是分数)behavior content

推荐系统实践第四章: 利用用户标签

基本上可以通过3种方式联系用户兴趣和物品: 用户喜欢过的物品(item-cf) 用户的好友或者有相似兴趣的好友喜欢过的物品(user-cf) 用户具有哪些feature, 哪些物品保护 之前用了user-cf,item-cf, 现在考虑使用标签进行推荐. 标签是一种无层次化结构的.用来描述信息的关键词. 给物品打标签: 专家.作者 用户 标签系统中存在的问题: 如何基于标签推荐 如何给用户推荐标签 基于标签的推荐系统示例: 利用Delicious数据集:(待链接)      格式:userID 

推荐系统-利用用户行为数据

用户的行为数据介绍: 用户的行为主要分为两种-显性反馈行为 和 隐性反馈行为 ,显性反馈行为主要包括 评分 和喜欢/不喜欢 ,youtube最早是使用是使用五分评价系统的,但是只有用户很不满意和特别满意的情况下才会评分,因此又把它变成了二级评分系统. 隐式反馈行为就是页面的浏览行为. 用户的行为分析: 用户的数据分布大都满足一种长尾分布,就是 每个单词出现的频率和他在热门排行榜的排名成反比.反映在网络行为上就是越是新用户越倾向于选择热门的产品越是老用户越是倾向于冷门产品 . 基于用户的行为的推荐

推荐系统读书笔记(二)利用用户行为数据

2.1 用户行为数据简介 显性反馈行为:用户明确表示对物品喜好的行为.评分.喜欢.不喜欢. 隐性反馈行为:不能明确反应用户喜好的行为.比如页面浏览.   显性反馈数据 隐性反馈数据 用户兴趣 明确 不明确 数量 较少 庞大 存储 数据库 分布式文件系统  实时读取 实时 有延迟 正负反馈 都有 只有正反馈 正反馈:用户的行为倾向于指用户喜欢的物品. 负反馈:用户的行为货币于用户不喜欢的物品. 用户行为的统一表示: user_id 产生行为的用户的唯一标识 item_id 产生行为的对象的唯一标识

题记 《推荐系统实践》读书笔记

<推荐系统实践>是一本入门级书籍,全书不到200页,通熟易懂,非常适合初学者.记不起上次阅读该书是什么时候,可以确定的是很定不超过三个月,今天回想梳理全书结构,甚是模糊,而是打算重读一遍.并在这里留下些许痕迹,以帮助日后回忆之用.对本笔记内容感兴趣的读者还请购买正版书籍,尊重作者权益! 作者介绍如下: 项亮,毕业于中国科学技术大学和中国科学院自动化所,研究方向为机器学习和推荐系统,现任职于北京Hulu软件技术开发有限公司,从事视频推荐的研究和开发.2009年参加Netflix Prize推荐系

推荐系统实践

推荐系统测评  实验方法 离线实验:准备训练数据测试数据并评估: 用户调查:问卷方式.和用户满意度调查 在线实验:AB测试:AB测试是一种很常用的在线评测算法的实验方法.它通过一定的规则将用户随机分成几组, 并对不同组的用户采用不同的算法,然后通过统计不同组用户的各种不同的评测指标比较不同算 法,比如可以统计不同组用户的点击率,通过点击率比较不同算法的性能. 测评指标: 用户满意度 预测准确度:预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力.这个指标是最重要的推荐系统离线评测指标 评分

推荐系统实践(项亮)— 第3章 推荐系统冷启动问题

3.1 冷启动问题简介 问题分类: 用户冷启动 物品冷启动 系统冷启动 常用解决方案: 利用热销榜进行推荐 利用用户注册时的年龄.性别等数据做粗粒度的个性化 利用用户社交数据为其推荐好友喜欢的物品 要求用户在登录时对一些物品进行反馈,收集用户对这些物品的兴趣信息并推荐相似产品 对于新加入的物品,可以利用内容信息,将它们推荐给喜欢过和它们相似的物品的用户 在系统冷启动时,可以引入专家的知识,通过一定的高效方式迅速建立起物品的相关度表 3.2 利用用户注册信息 基于用户注册信息的推荐算法其核心问题是