用于推荐系统评估的概念与指标

在推荐系统中,研究人员为了能让预测结果对用户提供更多价值,会关注用户满意度。鉴于推荐系统除了让用户购买更多的相似产品外,还必须对用户而言“有用”,研究人员还会关注用户在使用系统时的交互体验和消费体验。 目前,研究人员正在通过评估不同的指标来解决这个问题,而不是简单地通过预测准确度和机器学习技术。

推荐系统的性能应该由它为用户产生的价值来衡量。在推荐系统的评估问题上,目前有很多指标,比如说覆盖率、新颖性、多样性、惊喜度。这些评估方法名称各不相同。

有些学者把推荐系统中的新颖性、相关性、惊喜度等称其为“概念(concept )”,另一些学者则称其为“维度(dimensions)”,还有些人称其为“推荐系统评估的方法(measures of recommender system evaluation)”。

在本文中,我们将使用“概念”一词,指代评估推荐系统时的不同方面。在对现有概念归类后,我们将其分为了六大类:实用性、新颖性、多样性、奇异性、覆盖率、惊喜度和覆盖率。但还有一些概念未提及,如:信任、风险、鲁棒性、隐私、适应性和可扩展性。为了方便读者阅读,我们会把这几大概念用不同的篇幅呈现。

表1总结了本文在所有评估指标中使用的符号。

实用性

推荐系统的实用性有很多别称,例如相关性、有用性、推荐价值和用户满意度等。《推荐系统手册》(Recommender Systems Handbook)认为,实用性代表了用户在推荐时所获得的价值。如果用户喜欢推荐的项目,他/她收到的推荐就是有用的。实用性还被定义为用户消费偏好顺序。如果用户只消费他们最喜欢的东西,那么推荐这些项目能帮助用户更快找到心中所爱,从而达到推荐的实用性。

可以看出,大多数定义将实用性与用户消费的愿望与用户满意度挂钩。在这样的定义中,评估推荐系统的实用性应该集中在用户对推荐系统生成的预测做何反应。我们可以通过评估用户在消费物品后给出的评级,从而衡量推荐系统实用性。如果推荐结果为用户带来了价值,这种方法似乎是可取的,但这涉及到了在线评估。而说到离线评估,部分学者建议使用基于准确度的指标来评估。

在本文中,我们使用符号

原文地址:https://blog.51cto.com/13945147/2433431

时间: 2024-10-09 17:06:07

用于推荐系统评估的概念与指标的相关文章

推荐系统的评测方法及指标

首先声明,以下内容是看了项亮的<推荐系统实践>后 写的,内容基本出自该书,只是我自己再归纳总结一下而已(以免喷子又喷) 推荐系统中,主要有三种评测推荐效果的实验方法: 1)离线实验. 往往是从日志系统中取得用户的行为数据,然后将数据集分成训练数据和测试数据,比如80%的训练数据和20%的测试数据(还可以交叉验证),然后在训练数据集上训练用户的兴趣模型,在测试集上进行测试. 优点:只需要一个数据集即可,不需要实际的推荐系统(实际的也不可能直接拿来测试),离线计算,不需要人为干预,能方便快捷的测试

数据分析必须想清楚的两个概念:指标和维度(转)

指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易多了.现在就来说说指标与维度的那些事. 1.指标 指标,用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量.例如:人口数.GDP.收入.用户数.利润率.留存率.覆盖率等.很多公司都有自己的KPI指标体系,就是通过几个关键指标来衡量公司业务运营情况的好坏. 指标需要经过加和.平均等汇总计算方式得到,并且是需要在一定的前提条件进行

性能测试的概念和指标

性能测试:是为描述测试对象与性能相关的特征并对其进行评价而实施和执行的一类测试.是通过自动化的测试工具模拟多种正常.峰值以及异常负载条件来对系统的各项性能指标进行测试.负载测试和压力测试都属于性能测试,两者可以结合进行: 通过负载测试,确定在各种工作负载下系统的性能,目标是测试当负载逐渐增加时,系统各项性能指标的变化情况.压力测试是通过确定一个系统的瓶颈或者不能接受的性能点,来获得系统能提供的最大服务级别的测试. 性能测试概括为三个方面:(1)应用在客户端性能的测试(2)应用在网络上性能的测试(

推荐系统评估 查找率与查全率

评估推荐程序可以运用经典的信息检索(information retrieval)度量标准:查准率和查全率.这些术语通常用在像搜索引擎这样的系统中,即从许多可能的搜索结果中返回一组最佳结果. 搜索引擎应避免在top结果中返回无关的信息,而应竭力返回尽可能相关的结果.在一些对“相关”的定义中,查准率是指在top结果中相关结果的比例.查全率是指所有相关结果包含在top结果中的比例.换句话说,查找率是top推荐中间有“好”结果的比例,而查全率是“好”结果出现在top推荐中的比例.

推荐系统的基本概念及其在各个领域的应用

初学推荐系统相关内容,写写自己读<推荐系统实践>的读书笔记. 推荐系统: 对用户来说推荐系统帮助用户发现自己想要的商品,对于商品来说找到对其感兴趣的用户,前者例如电影,歌曲的推荐,后者例如广告推送. 产生推荐系统主要是因为信息过载,用户难以从大量信息中发现自己想要的信息. 对于物品来说,在线上购物网站可以包含大量的商品,如何发觉长尾商品,并且将这些长尾商品推荐给用户,是推荐系统的重要作用. 个性化推荐系统主要以下场景: 电子商务,例如亚马逊,淘宝. 商品推荐页主要包括的内容有(1)推荐结果的标

推荐系统:技术、评估及高效算法

这篇是计算机类的优质预售推荐>>>><推荐系统:技术.评估及高效算法> 内容简介 本书汇聚不同领域专家学者的理论成果和实践经验,全面介绍推荐系统的主要概念.理论.趋势.挑战和应用,详细阐释如何支持用户决策.计划和购买过程.书中既详细讲解了经典方法,又介绍了一些新研究成果,内容涵盖人工智能.人机交互.信息技术.数据挖掘.统计学.自适应用户界面.决策支持系统.市场和客户行为等领域,无论是从事技术开发,还是从事产品营销的读者,都能从中受益. 本书可分成五部分,共25章.第1章

二分类算法评估指标

我们都知道机器学习要建模,但是对于模型性能的好坏我们并不知道是怎样的,很可能这个模型就是一个差的模型,对测试集不能很好的预测.那么如何知道这个模型是好是坏呢?必须有个评判的标准,需要用某个指标来衡量,这就是性能度量的意义.有了一个指标,就可以对比不同模型了,从而知道哪个模型更好,或者通过这个指标来调参优化选用的模型. 对于分类.回归.聚类等,分别有各自的评判标准.本篇主要介绍二分类算法(多分类可以扩展转化成二分类)的相关指标.评估一个二分类的分类器的性能指标有:准确率.查准率.查全率.F1值.A

如何评估推荐系统的健康状况?

推荐系统的常见指标 推荐系统的评价指标,要从解决实际问题的角度来思考. 好的推荐系统,不仅要保证自身系统的健壮度,好要满足服务平台.用户等多方面的需求. 用户角度 更方便更快速的发现自己喜欢的产品 精准度 更多的为用户主观感受,评估的是推荐的物品是不是用户喜欢的 惊喜度 推荐的物品让用户有心情跳动的惊喜感觉,比如发现多年前的记忆.耳目一新的内容.用户听过的但是不知名字的音乐,看过片段却不知道名字的电影.知道功能却不知道名字的商品 此类推荐和用户兴趣不一定相似,但是却给用户带来意外之喜,超出用户的

【推荐算法工程师技术栈系列】推荐系统--数据效果与评估

目录 推荐系统上线的基本条件 AB实验 功能列表 数据指标 覆盖率 AUC及gAUC 指标展示 指标监控 人工评测 附录 推荐系统上线的基本条件 一个新的推荐算法最终上线,需要完成上面所说的3个实验: (1)首先,需要通过离线实验证明它在很多离线指标上优于现有的算法: (2)然后,需要通过用户调查(或内部人工评测)确定它的用户满意度不低于现有的算法: (3)最后,通过在线等AB测试确定它在我们关心的指标上优于现有的算法. AB实验 (1)AB test 的好处是显而易见的,可以公平获得不同算法实