推荐系统评测方法

什么才是好的推荐系统?以图书推荐系统为例:

首先推荐系统要满足用户的需求,要尽可能地覆盖各种图书,要能收集到高质量的用户反馈,增加用户和图书网站的交互,提高网站的收入。要能够准确预测用户的行为,还要扩展用户的视野,帮助用户发现那些他们可能会感兴趣的但却不那么容易发现的东西。本文主要从用户,网站,内容提供方提出不同的指标。

三种推荐系统实验方法

1、离线实验(offline experiment)

实施步骤:

(1)将从日志系统收集来的用户行为数据,生成为一个标准的数据集;

(2)按照一定的规则,将数据集分成训练集和测试集两个部分;

(3)在训练集上训练用户兴趣模型,在测试集上进行测试;

(4)利用定义好的离线指标评测算法,在测试集上进行结果预测。

优点:所有实验在数据集(从系统日志中提取而来)上完成,对实际系统和用户参与依赖度低,方便快捷;

缺点:对商业上关注的指标获取能力弱;

2、用户调查(user study)

用户调查,是一种通过分析被调查用户(真实的用户),在被测推荐系统上完成任务时的行为和回答问题的情况,来了解测试系统性能的一种实验方法。它旨在为上线测试提供准备工作,以防范上线测试所潜在的降低用户满意度的问题。

优点:在离线测试解决不了的“用户主观感受相关指标”的获取上,有着优越的性能;风险易控。

缺点:实验成本高,难组织大规模测试;双盲实验设计困难,影响测评结果。

3、在线实验(online experiment)

这里的在线实验方法,偏指AB测试方法。

实施步骤:

(1)通过一定规则将用户随机分组;

(2)对不同组的用户采用不同算法;

(3)统计不同组用户的不同评测指标,以比较不同的算法。

优点:公平获得不同算法实际在线的性能指标,包括商业上关注的指标。

缺点:试验周期较长;设计AB测试系统的工程量大,且流量切分设计一般必不可少。

评测指标:

1、用户满意度:

基本在实际操作中不可用,首先这是一个相对主观的指标,一般依靠用户调研获取,而用户基本也不知道自己想要什么,最多谈一个表面上的感受,参考价值不大。其次最关心推荐系统好坏的往往是这个项目的PM,用户满意度的概念很容易被偷换成PM满意度或老板满意度。以前有个朋友在游戏公司,结果各个需求都以老板的满意为准,最后倒闭了。所以在实际情况下,会用衡量准确度的客观指标来参考,比如通过点击率的统计看用户对推出内容的满意程度。

2、预测准确度:

应用中,按场景可以将推荐系统分为TopN推荐和评分推荐两种,评分推荐一般用RMSE( 均方根误差)和MAE(绝对平均)误差计算。其中RMSE加大了对预测不准的项的惩罚,评测更加严格。而对于另一种TopN推荐的预测准确率,一般用Recall(召回率)和Precision(准确率)来评测,需要的时候还可以计算多对准确率和召回率,然后画出PR曲线进行评测。

3、覆盖率:

覆盖率用于描述系统对于长尾物品的发掘能力,简单说就是对所有用户推荐的物品能够包括的物品种类越多,覆盖率越大,这样就引出了覆盖率最简单的一种定义方式:系统能够推荐的物品占总物品集合的比例。但是这样的计算方法没有考虑推荐列表中每种物品出现的频率,如果列表中不但出现的比例大,而且每种物品出现的频率也相近,那么对长尾的挖掘能力越好。通过物品在推荐列表中出现次数定义覆盖率的方式有信息熵和基尼系数两种。这两个指标的计算又会涉及到流行度的计算,一种商品的流行度就是它和多少用户发生了用户行为。
长尾效应如下图:

长尾效应,英文名称Long Tail Effect。“头”(head)和“尾”(tail)是两个统计学名词。正态曲线中间的突起部分叫“头”;两边相对平缓的部分叫“尾”。从人们需求的角度来看,大多数的需求会集中在头部,而这部分我们可以称之为流行,而分布在尾部的需求是个性化的,零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”,而所谓长尾效应就在于它的数量上,将所有非流行的市场累加起来就会形成一个比流行市场还大的市场。
简单来说就是热门的商品和 冷门商品贫富差距太大

4、多样性:
推荐列表中物品的两两不相似性,可以用相似度来定义,相似度越高,多样性就越低。

5、新颖性:
推出那些用户之前没有接触过的内容。

6、惊喜度:
推荐一个和用户兴趣一点关系没有但是用户觉得还很不错的内容。

7、信任度:
要让用户认同推荐系统的推荐结果和推荐理由。

8、实时性:
产生了新的用户行为之后能不能实时更新推荐里列表
加入了新的物品能不能立即推荐给用户(物品的冷启动问题)

9、健壮性:
又称鲁棒性,抗击作弊的能力
可以通过模拟攻击进行评测
提高健壮性的方法:
1、设计推荐系统是使用代价高的用户行为
2、使用数据训练模型前进行攻击检测,对数据进行清理

原文地址:http://blog.51cto.com/yixianwei/2104732

时间: 2024-10-11 17:44:36

推荐系统评测方法的相关文章

(4)推荐系统评测方法和指标分析

选择合适的评测方法对推荐系统进行评测,对于提高推荐系统的推荐质量至关重要.评测方法主要有离线实验,用户调查和在线实验三种.离线实验使用服务器日志文件中的用户行为数据进行评测.用户调查需要有真实的用户参与推荐系统的测试,以获得关于推荐系统推荐质量的宝贵信息.可以进行在线实验做AB测试,获得不同算法在线时的性能指标.除推荐系统的评测方法外,还有若干评测指标可以对推荐系统各方面的性能进行评价,这些评测指标包括用户满意度,预测准确度,覆盖率,多样性,新颖性,惊喜度,信任度,实时性和健壮性等. 原文地址:

推荐系统的评测方法及指标

首先声明,以下内容是看了项亮的<推荐系统实践>后 写的,内容基本出自该书,只是我自己再归纳总结一下而已(以免喷子又喷) 推荐系统中,主要有三种评测推荐效果的实验方法: 1)离线实验. 往往是从日志系统中取得用户的行为数据,然后将数据集分成训练数据和测试数据,比如80%的训练数据和20%的测试数据(还可以交叉验证),然后在训练数据集上训练用户的兴趣模型,在测试集上进行测试. 优点:只需要一个数据集即可,不需要实际的推荐系统(实际的也不可能直接拿来测试),离线计算,不需要人为干预,能方便快捷的测试

推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率:召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率. 一般来说,Precision就是检索出来的条目(比如:文档.网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了. 正确率.召回

【转】推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

原文链接 http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/ 下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率:召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率. 一

服务器性能评测方法

1概述 1.1背景 本文的编写背景是目前机房服务器资源存在未充分使用的现象,为了合理分 配资源,现需要对服务器自身性能进行评估,探索一套评估方法,从而为后续资源合理分配提供依据. 1.2评测指标 简单来说,服务器硬件性能指标来自于测试对象,一般x86服务器的主要组 成有CPU.内存.硬盘.网卡等.针对单机,评测指标重点关注CPU.内存.IO.网络:对于集群,重点关注网络.高可用. 本文主要评测单机性能,指标如下: CPU—计算能力 内存—延时.速率 IO—读写能力 网络—网络带宽 1.3工具概况

性能评测方法、各评测项标准总结

1.前言 性能测评涵盖众多方面,在测试收集每一项数据的时候,要注意考虑其为什么可以表征某一方面性能的强弱好坏.这是从选取指标的角度来考虑. 然后,每一个指标,具体需要哪些数据才可以计算得到.这是从计算指标的角度来考虑. 我们各种评测方法,其实就是围绕这两点进行的,而且要力争做到数据的准确. 2.技能准备 2.1视频录制方法 由于视频录制法在非常多的评测项中都要用到,所以我们先介绍一下视频录制的准备工作. <1>需要一台高清摄像机. <2>摄制前,确认DV至少在60FPS以上(可以进

大数据分析处理评测方法

大数据分析处理评测方法 效果与效率 (以分类模型为例)                                                  效果 准确率 模型对未标注数据做作出的判断中,正确的比例 例子: 准确率看行,召回率看列 召回率 它是对于某个类别,模型正确判断的该样本个数占该类样本总数的比例 F值 效率 时间复杂度 空间复杂度 吞吐率 加速比 原文地址:https://www.cnblogs.com/lonelyshy/p/12432164.html

推荐系统的评测方法

推荐系统是由一个或者多个算法和策略组成的这样一个系统,其商业价值在于实现产品提供者.产品用户以及推荐平三者的利益共赢.无论从算法的角度还是从商业的角度,效果好不好都是我们所关心的问题,所以实践者们对推荐系统系统提出了各种各样的评测指标来衡量其优劣性和适用性. 在介绍这些评测指标之前,我们先要知道一般会用什么样的方式获得评测指标.在推荐系统中,主要有三种实验方式,用以获得不同的指标,分别是离线实验(offline experiment).用户调查(user study)和在线实验(online e

推荐系统--二部图方法

参考周涛的几篇二部图的文章做的实验文章列表: 1,2007PRE Bipartite network projection and personal recommendation.pdf (网络结构) 2,2010PNAS-Solving the apparent diversity-accuracy dilemma of recommender systems.pdf (物质扩散和热传导) Heats和Pros的简单融合算法 3,2009NJP Accurate and diverse rec