如何评估推荐系统的健康状况?

推荐系统的常见指标

推荐系统的评价指标,要从解决实际问题的角度来思考。

好的推荐系统,不仅要保证自身系统的健壮度,好要满足服务平台、用户等多方面的需求。

用户角度

更方便更快速的发现自己喜欢的产品

精准度

更多的为用户主观感受,评估的是推荐的物品是不是用户喜欢的

惊喜度

推荐的物品让用户有心情跳动的惊喜感觉,比如发现多年前的记忆、耳目一新的内容、用户听过的但是不知名字的音乐,看过片段却不知道名字的电影、知道功能却不知道名字的商品

此类推荐和用户兴趣不一定相似,但是却给用户带来意外之喜,超出用户的预期

新颖性

推荐用户没有接触过的东西,不一定是用户最喜欢的,但可以提升用户的探索欲望,从而获得更完整的用户兴趣

多样性

推荐的更多的品类,可以挖掘用户潜在的兴趣点,拓展用户的兴趣范围来提升用户的推荐体验

平台角度

平台方为用户提供物品或信息。

不同平台的获利方式不同,比如有的靠会员模式、有的通过商品、大部分则通过广告

对多数平台来说商业目标是最重要的目标之一

内容满意度

由于业务场景不同,内容满意的指标也会随之变化,主要是通过用户对产品的不同行为来衡量

  • 资讯

    • 阅读-----阅读时长----分享评论
  • 电商
    • 点击----浏览-----收藏购物车----购买-----好评----复购
  • 短视频
    • 播放----播放时长-----分享、点赞、评论-----关注 ------跟拍
  • 音乐
    • 播放-----播放时长-----分享、收藏、评论

场景转化率

转化率指标更为直观,给用推荐内容,是希望用户对推荐的内容有所行动,比如点击行为、点赞行为

pv点击率(点击量/pv)

粗略的衡量转化效果,但如果少数用户贡献大量点击时,容易覆盖该指标的真实性

uv点击率(点击量/uv)

可记录用户在一个完整周期内的点击效果,不会因用户重复浏览某个内容而受影响

曝光点击率(点击量/曝光次数)

更适合长页面、信息流等需要上拉、下拉翻页的产品,曝光次数随用户刷屏次数增加而变大,真实记录每一屏的转化效果

uv转化率(转化次数/点击量)

衡量用户转化情况,用户从一个场景转化到另一个场景去,用来评估用户的宽度

人均点击次数(点击量/点击uv数)

每个用户的点击次数,可用来评价用户的深度

推荐系统的离线评估

推荐系统自身的评估,推荐系统从接受数据到产生推荐结果,再根据推荐结果的影响重新修正自身。

推荐算法训练--(离线评价)----模型上线----(在线评价)---推荐内容---(在线评价)------行为日志收集分析--->>迭代优化推荐算法

准确度

准确度评估主要是评估推荐算法模型的好坏,为选择合适的模型提供决策支持。

数据划分为训练集、测试集;

使用训练集学习训练模型;

使用测试集来衡量误差以及评估准确度;

根据推荐系统目的不同,准确度的衡量也不同:

分类问题

比如点击、不点击; 喜欢、不喜欢;

  • 精确度precision:推荐结果有多少是用户喜欢的
  • 召回率recall:用户喜欢的产品,有多少个是推荐系统推荐的

通常希望两个指标都越大越好,但实际需平衡两个指标都关系,所以长远F-指标来作为平衡二者关系的计算方式

评分预测

对产品惊醒评分,电影评分

  • 均方根差RMSE
  • MAE 平均绝对误差

用于描述与测评分与产品真实评分的差距

排序问题

分类、评分只是把推荐产品晒出来,不包含展示顺序,而如果要把用户最可能消费的产品放在前面,则需要排序指标。

  • AUC,随机挑选一个正样本,一个负样本,正样本排在负样本前的概率

    当算法能更好的把证样本排在前边的时候,就是一个好的算法模型

  • MAP,推荐列表中和用户相关的产品在推荐列表中的位置得分,越靠前分越大
  • MRR,按照跟用户相关的产品的排名的倒数作为精确度
  • NDGC,推荐列表中每一个产品评分值的累加;同时考虑每个产品位置,最后进行归一化,在同一标准上评价不同的推荐列表

覆盖率

推荐出的产品占总产品的比例

多样性

用户兴趣不是一成不变的,统一用户的兴趣会受到时间段、心情、节日等多种因素影响。推荐时要尽量推荐更多的品类。

可通过对产品聚类,在推荐列表中插入不同类别产品类提高多样性

时效性

不同产品的时效性不同,比如电商产品时效性不是很高,但新闻、资讯、短视频之类的产品,就需要很高的时效性。

针对不同的产品,甚至产品下不同的类目,设置不同的时效性,也是提高推荐质量的途径之一。

推荐系统的在线评估

在线评估分为两个阶段:用户触发推荐服务、用户产生行为

触发推荐服务

稳定性

系统稳定性对于用户体验至关重要,怎样针对不同场景持续稳定的提供推荐服务,是推荐系统的最重要的指标之一,提升推荐效果也要在保证系统稳定的前提下去进行优化

高并发

当某个时间节点大量用户访问,或用户规模急速扩大时,系统能否扛住高并发的压力,也是个很大的挑战。

了解接口的高并发能力,做好充分的压力测试

响应时间

衡量用户能否及时得到推荐反馈,response time 受多种因素影响,比如网络情况、服务器、数据库等,可通过监控请求的时长,接口监控,数据监控,做好报警措施

产生行为

用户产生行为,通过收集分析用户的行为日志进行相关指标的评价

示例:

1、推荐的曝光点击转化率

2、推荐的点击访问转化率

3、推荐的访问购买转化率

示例:

1、推荐曝光

2、点击 (曝光点击转化率)

3、阅读(点击阅读转化率)

4、分享(阅读分享转化率)

AB测试

在线评估通常会结合AB测试

什么是AB测试

AB测试本质为对照实验,来源于医学的双盲测试,通过给两组病人不同的药物,来确定药物是否有效。

AB测试:将不同的算法/策略,在同一时间维度,分别在两组或者多组 组成成分相同的用户群体内容进行线上测试,分析各组用户的行为指标,得到可以真正全流量上线的算法和策略

AB测试常见做法

==核心:控制变量、分流测试、规则统一==

控制变量

AB测试必须是单变量的,变量太多会产生干扰,很难找到各个变量对结果的影响程度。

分流测试

AB测试作为对照试验,自然要有 试验组和对照组。通常会对用户进行分流

  • 用户ID
  • 设备号
  • 浏览器cookie
  • 约定生成的伪随机数,0,1大数定律

规则统一

在控制变量和分流测试的前提下,针对不同的流量,应制定相同的评价指标,才能得到准确的对比效果。

原文地址:https://www.cnblogs.com/oceaneyes-gzy/p/12334292.html

时间: 2024-11-07 00:11:20

如何评估推荐系统的健康状况?的相关文章

【读书笔记】《推荐系统(recommender systems An introduction)》第七章 评估推荐系统

基本思想:将数据分为训练集合和测试集合,用训练集合的数据训练模型,用测试集合的数据测试模型.训练集和测试集的划分,可以是按照时间的维度,也可以按照人群的维度. 存在风险:对于某些方法可能有偏向性. 用历史数据进行评价 按照时间维度将数据分为训练集合测试集,N折交叉验证. 还有直接用人工进行评价的.不过代价较大,不能上规模,在实际中用处不大. 完.

《推荐系统》--混合推荐、解释和评估

<Recommender System An Introduction>,第五章,混合推荐方法. <Recommender System An Introduction>,第六章,推荐系统的解释. <Recommender System An Introduction>,第七章,评估推荐系统. 混合推荐方法 如何进行混合推荐,要考虑两个问题:基础的推荐理论框架和系统的混合设计,也就是组合两个以上算法的方法. 推荐理论框架 推荐问题通常可以转换成效用函数rec,预测物品集

用于推荐系统评估的概念与指标

在推荐系统中,研究人员为了能让预测结果对用户提供更多价值,会关注用户满意度.鉴于推荐系统除了让用户购买更多的相似产品外,还必须对用户而言"有用",研究人员还会关注用户在使用系统时的交互体验和消费体验. 目前,研究人员正在通过评估不同的指标来解决这个问题,而不是简单地通过预测准确度和机器学习技术. 推荐系统的性能应该由它为用户产生的价值来衡量.在推荐系统的评估问题上,目前有很多指标,比如说覆盖率.新颖性.多样性.惊喜度.这些评估方法名称各不相同. 有些学者把推荐系统中的新颖性.相关性.惊

推荐系统的评测方法

推荐系统是由一个或者多个算法和策略组成的这样一个系统,其商业价值在于实现产品提供者.产品用户以及推荐平三者的利益共赢.无论从算法的角度还是从商业的角度,效果好不好都是我们所关心的问题,所以实践者们对推荐系统系统提出了各种各样的评测指标来衡量其优劣性和适用性. 在介绍这些评测指标之前,我们先要知道一般会用什么样的方式获得评测指标.在推荐系统中,主要有三种实验方式,用以获得不同的指标,分别是离线实验(offline experiment).用户调查(user study)和在线实验(online e

【转载】推荐系统的十大挑战

摘要:个性化推荐很多读者都听说过,但真正它是什么,可能大多数人都说不上来或者并不真正了解,而对于其发展现状和前景,大家也没有一个统一的认识.本文很详尽地介绍了个性化推荐的:理论概念,并深入分析了其面临的10大挑战. 个性化推荐经常被人误解为细分市场和精准营销这两个概念.虽然它们之间有一些联系,但实质上却相差甚远.本文不仅清楚地讲述了个性化推荐技术,更列出了其所面临的十大挑战. 很多人都知道个性化推荐,却有不少认识上的误区.有的人认为个性化推荐就是细分市场和精准营销,但实际上细分市场和精准营销往往

《推荐系统》学习笔记 -- 基本概念

实战推荐(开发维护电子商务网站的推荐系统)几个月之后,感觉到达一个瓶颈. 从实战角度来讲,对于一个中型的电子商务网站(比如千万PV),独立构建一个推荐系统,完成基础的推荐功能,比如:ViewView(看过还看过).ViewWant(看过还加车).WantWant(加车还加车).CollectCollect(收藏还收藏)之类的基于协同过滤的推荐:Similar(猜您喜欢)之类的基于内容的推荐,从数据的收集.抽取.计算.分析,已经没有问题. 但是对推荐的理论性认识,推荐策略及其适用场景,推荐算法,推

【推荐系统论文笔记】Introduction To Recommender Systems: Algorithms and Evaluation

这篇论文比较短,正如题目所说,主要还是简单地介绍了一下推荐系统的一些算法以及评估的方法. 推荐系统之前是基于关键字信息的过滤系统,后来发展成为协同过滤系统,解决了两个问题:1.通过人工审核去评价那些具有大量关键字的文档:2.基于人们的品味去过滤一些非文本文件,如音乐. 之后,推荐系统研究领域出现了分叉.一方面,关注实际问题中的商业价值:另一方面,一些机器学习者应用大量技术在推荐系统. 正是这种分叉,推动了推荐系统的发展,许多推荐系统的研究者们都意识到了忽略了两个关键点: 1.在不同类型的推荐系统

《转》自己动手写一个推荐系统

本文转载自懒惰啊我 废话: 最近朋友在学习推荐系统相关,说是实现完整的推荐系统,于是我们三不之一会有一些讨论和推导,想想索性整理出来. 在文中主要以工程中做推荐系统的流程着手,穿插一些经验之谈,并对于推荐系统的算法的学术界最新的研究进展和流派作一些介绍.当然由于我做推荐系统之时还年幼,可能有很多偏颇甚至错误的见解,就当抛砖引玉,还请各位大大指点. Reading lists 虽然很多人觉得作为AI的分支之一,推荐跟自然语言处理等问题的难度不可同日而语.但所谓磨刀不误砍柴工,我觉得,至少在开工前先

基因突变基本知识

赛福基因公开课今天正式开讲.第一课我们来对基因检测进行基本的介绍. 今天我主要从以下两个方面介绍一下基因检测的基础知识,一是基因,包括细胞.染色体.DNA.基因的简单介绍.另一是基因突变,包括基因突变的概念介绍,基因突变的来源以及基因突变的类型及对蛋白的影响等. 在精准医疗中基因检测这个领域,有一个很著名的事件——安吉丽娜朱莉事件. 安吉丽娜朱莉一家有肿瘤的家族史,她的母亲.祖母和曾祖母,阿姨,此前都因癌症去世. 2013年,安吉丽娜·朱莉进行了基因测序,发现了自己是 BRCA1 突变基因携带者