如何评估推荐系统的健康状况？

AB测试

在线评估通常会结合AB测试

什么是AB测试

AB测试本质为对照实验，来源于医学的双盲测试，通过给两组病人不同的药物，来确定药物是否有效。

AB测试：将不同的算法/策略，在同一时间维度，分别在两组或者多组组成成分相同的用户群体内容进行线上测试，分析各组用户的行为指标，得到可以真正全流量上线的算法和策略

AB测试常见做法

==核心：控制变量、分流测试、规则统一==

控制变量

AB测试必须是单变量的，变量太多会产生干扰，很难找到各个变量对结果的影响程度。

分流测试

AB测试作为对照试验，自然要有试验组和对照组。通常会对用户进行分流

用户ID
设备号
浏览器cookie
约定生成的伪随机数，0，1大数定律

规则统一

在控制变量和分流测试的前提下，针对不同的流量，应制定相同的评价指标，才能得到准确的对比效果。

原文地址：https://www.cnblogs.com/oceaneyes-gzy/p/12334292.html

时间： 2024-11-07 00:11:20

如何评估推荐系统的健康状况？的相关文章

【读书笔记】《推荐系统(recommender systems An introduction)》第七章评估推荐系统

基本思想:将数据分为训练集合和测试集合,用训练集合的数据训练模型,用测试集合的数据测试模型.训练集和测试集的划分,可以是按照时间的维度,也可以按照人群的维度. 存在风险:对于某些方法可能有偏向性. 用历史数据进行评价按照时间维度将数据分为训练集合测试集,N折交叉验证. 还有直接用人工进行评价的.不过代价较大,不能上规模,在实际中用处不大. 完.

《推荐系统》--混合推荐、解释和评估

<Recommender System An Introduction>,第五章,混合推荐方法. <Recommender System An Introduction>,第六章,推荐系统的解释. <Recommender System An Introduction>,第七章,评估推荐系统. 混合推荐方法如何进行混合推荐,要考虑两个问题:基础的推荐理论框架和系统的混合设计,也就是组合两个以上算法的方法. 推荐理论框架推荐问题通常可以转换成效用函数rec,预测物品集

用于推荐系统评估的概念与指标

在推荐系统中,研究人员为了能让预测结果对用户提供更多价值,会关注用户满意度.鉴于推荐系统除了让用户购买更多的相似产品外,还必须对用户而言"有用",研究人员还会关注用户在使用系统时的交互体验和消费体验. 目前,研究人员正在通过评估不同的指标来解决这个问题,而不是简单地通过预测准确度和机器学习技术. 推荐系统的性能应该由它为用户产生的价值来衡量.在推荐系统的评估问题上,目前有很多指标,比如说覆盖率.新颖性.多样性.惊喜度.这些评估方法名称各不相同. 有些学者把推荐系统中的新颖性.相关性.惊

【转载】推荐系统的十大挑战

摘要:个性化推荐很多读者都听说过,但真正它是什么,可能大多数人都说不上来或者并不真正了解,而对于其发展现状和前景,大家也没有一个统一的认识.本文很详尽地介绍了个性化推荐的:理论概念,并深入分析了其面临的10大挑战. 个性化推荐经常被人误解为细分市场和精准营销这两个概念.虽然它们之间有一些联系,但实质上却相差甚远.本文不仅清楚地讲述了个性化推荐技术,更列出了其所面临的十大挑战. 很多人都知道个性化推荐,却有不少认识上的误区.有的人认为个性化推荐就是细分市场和精准营销,但实际上细分市场和精准营销往往

《推荐系统》学习笔记 -- 基本概念

实战推荐(开发维护电子商务网站的推荐系统)几个月之后,感觉到达一个瓶颈. 从实战角度来讲,对于一个中型的电子商务网站(比如千万PV),独立构建一个推荐系统,完成基础的推荐功能,比如:ViewView(看过还看过).ViewWant(看过还加车).WantWant(加车还加车).CollectCollect(收藏还收藏)之类的基于协同过滤的推荐:Similar(猜您喜欢)之类的基于内容的推荐,从数据的收集.抽取.计算.分析,已经没有问题. 但是对推荐的理论性认识,推荐策略及其适用场景,推荐算法,推

【推荐系统论文笔记】Introduction To Recommender Systems: Algorithms and Evaluation

这篇论文比较短,正如题目所说,主要还是简单地介绍了一下推荐系统的一些算法以及评估的方法. 推荐系统之前是基于关键字信息的过滤系统,后来发展成为协同过滤系统,解决了两个问题:1.通过人工审核去评价那些具有大量关键字的文档:2.基于人们的品味去过滤一些非文本文件,如音乐. 之后,推荐系统研究领域出现了分叉.一方面,关注实际问题中的商业价值:另一方面,一些机器学习者应用大量技术在推荐系统. 正是这种分叉,推动了推荐系统的发展,许多推荐系统的研究者们都意识到了忽略了两个关键点: 1.在不同类型的推荐系统

《转》自己动手写一个推荐系统

本文转载自懒惰啊我废话: 最近朋友在学习推荐系统相关,说是实现完整的推荐系统,于是我们三不之一会有一些讨论和推导,想想索性整理出来. 在文中主要以工程中做推荐系统的流程着手,穿插一些经验之谈,并对于推荐系统的算法的学术界最新的研究进展和流派作一些介绍.当然由于我做推荐系统之时还年幼,可能有很多偏颇甚至错误的见解,就当抛砖引玉,还请各位大大指点. Reading lists 虽然很多人觉得作为AI的分支之一,推荐跟自然语言处理等问题的难度不可同日而语.但所谓磨刀不误砍柴工,我觉得,至少在开工前先

基因突变基本知识

赛福基因公开课今天正式开讲.第一课我们来对基因检测进行基本的介绍. 今天我主要从以下两个方面介绍一下基因检测的基础知识,一是基因,包括细胞.染色体.DNA.基因的简单介绍.另一是基因突变,包括基因突变的概念介绍,基因突变的来源以及基因突变的类型及对蛋白的影响等. 在精准医疗中基因检测这个领域,有一个很著名的事件——安吉丽娜朱莉事件. 安吉丽娜朱莉一家有肿瘤的家族史,她的母亲.祖母和曾祖母,阿姨,此前都因癌症去世. 2013年,安吉丽娜·朱莉进行了基因测序,发现了自己是 BRCA1 突变基因携带者

如何评估推荐系统的健康状况？

推荐系统的常见指标

用户角度

精准度

惊喜度

新颖性

多样性

平台角度

内容满意度

场景转化率

pv点击率（点击量/pv）

uv点击率（点击量/uv）

曝光点击率（点击量/曝光次数）

uv转化率（转化次数/点击量）

人均点击次数（点击量/点击uv数）

推荐系统的离线评估

准确度

分类问题

评分预测

排序问题

覆盖率

多样性

时效性

推荐系统的在线评估

触发推荐服务

稳定性

高并发

响应时间