推荐系统评价指标
1.评分预测
预测准确度:
均方根误差(RMSE):
平均绝对误差(MAE):
关于这两个指标的优缺点,Netflix认为RMSE加大了对预测不准的用户物品评分的惩罚(平方项的惩罚),因为对系统的评测更加苛刻。研究表明,如果评分系统是基于整数建立的(即用户给的评分都是整数),那么对预测结果取整会降低MAE的误差。
2.Top N推荐:给用户一个个性化的推荐列表,预测准确率一般通过准确率和召回率度量。
令 R(u)是根据用户在训练集上的行为给用户作出的推荐列表,而T(u)是用户在测试集上的行为列表。
那么,推荐结果的召回率定义为:
推荐结果的准确率定义为:
为了全面评测Top N推荐的准确率和召回率,一般会选取不同的推荐列表长度N,计算出一组准确率/召回率,然后画出准确率/召回率曲线。
3.覆盖率
覆盖率(coverage)描述了一个推荐系统对物品长尾的发掘能力,覆盖率有不同的定义方法,最简单的定义为推荐系统能够推荐出来的物品占总物品集合的比例。假设系统的用户集合为U,推荐系统给每个用户推荐一个长度为N的物品列表R(u),那么:
覆盖率为100%的推荐系统可以将每个物品都推荐给至少一个用户。热门排行榜的推荐覆盖率是很低的,它只会推荐那些热门的物品,这些物品在总物品中占的比例很小。一个好的推荐系统不仅需要有比较高的用户满意度,也要有较高的覆盖率。
但是上面的定义过于粗略。覆盖率为100%的系统可以有无数的物品流行度分布。为了更细致地描述推荐系统发掘长尾的能力,需要统计推荐列表中不同物品出现次数的分布。如果所有的物品都出现在推荐列表中,且出现的次数差不多,那么推荐系统发掘长尾的能力就很好。可以用物品在推荐列表中出现次数的分布描述推荐系统挖掘长尾的能力。如果这个分布比较平,那么说明推荐系统的覆盖率较高,而如果这个分布比较陡峭,说明推荐系统的覆盖率较低。有两个比较著名的指标可以用来定义覆盖率。
第一个是信息熵: ,其中p(i)是物品i的流行度除以所有物品流行度之和。
第二个指标是基尼系数(Gini Index): , 是按照物品流行度p()从小到大排序的物品列表中第j个物品。
评测推荐系统是否具有马太效应的简单办法就是使用基尼系数,如果G1是从初始用户行为中计算出的物品流行度的基尼系数,G2是从推荐列表中计算出的物品流行度的基尼系数,如果G2>G1,就说明推荐算法具有马太效应。
4.多样性
为了满足用户广泛的兴趣,推荐列表需要能够覆盖用户不同的兴趣领域,即推荐结果需要具有多样性。多样性推荐列表的好处用一句俗语表述就是“不在一棵树上吊死”。尽管用户的兴趣在较长的时间跨度中是不一样的,但具体到用户访问推荐系统的某一个刻,其兴趣往往是单一的,那么如果推荐列表只能覆盖用户的一个兴趣点,而这个兴趣点不是用户这个时刻的兴趣点,推荐列表就不会让用户满意。反之,如果推荐列表比较多样,覆盖了用户绝大多数的兴趣点,那么就会增加用户找到感兴趣物品的概率。因此给用户的推荐列表也需要满足用户广泛的兴趣,即具有多样性。
多样性描述了推荐列表中物品两两之间的不相似性。假设 定义了物品i和j之间的相似度,那么用户u的推荐列表 的多样性定义如下:
而推荐系统的整体多样性可以定义为所有用户推荐列表多样性的平均值:
不同的物品相似度度量函数 可以定义不同的多样性。如果用内容相似度描述物品间的相似度,我们就可以得到内容多样性函数,如果用协同过滤的相似度函数描述物品间的相似度,就可以得到协同过滤的多样性函数。
5.新颖性
新颖的推荐是指给用户推荐那么他们以前没有听说过的物品。在一个网站中实现新颖性的最简单办法是,把那些用户之前在网站在对其有过行为的物品从推荐列表里过滤掉,当然最好是把在其它网站有过行为的物品也过滤掉。
评测新颖度的最简单方法是利用推荐结果的平均流行度,因为越不热门的物品越可能让用户觉得新颖。因此,如果推荐结果中物品的平均热门程度较低,那么推荐结果就越有可能有比较高的新颖性。但是,用推荐结果的平均度度量新颖性比较粗略,因为不同用户不知道的东西是不同的。因此,要准确地统计新颖性需要做用户调查。
通过牺牲精度来提高多样性和新颖性是很容易的,而困难的是如何在不牺牲精度的情况下提高多样性和新颖性。
6.惊喜度
如果推荐结果和用户的历史兴趣不相似,但却让用户觉得满意,那么就可以说推荐结果的惊喜度很高,而推荐的新颖性仅仅取决于用户是否听说过和这个推荐结果。(具体参考Guy Shani的论文。)
7.信任度
同样的推荐结果,以让用户信任的方式推荐给用户就更能让用户产生购买欲,而类似广告形式的方法推荐给用户就可能很难让用户产生购买的意愿。
提高推荐系统的信任度主要有两种方法。首先需要增加推荐系统的透明度(transparency),而增加推荐系统透明度的主要办法是提供推荐解释。只有让用户了解推荐系统的运行机制,让用户认同推荐系统的运行机制,才会提高用户对推荐系统的信任度。其次是考虑用户的社交网络信息,利用用户的好友信息给用户做推荐,并且用好友进行推荐解释。这是因为用户一般对他们的好友一般都比较信任,因此如果推荐的商品是好友购买过的,那么他们对推荐结果就和比较信任。
8.实时性
在一些网站中,因为物品(新闻、微博等)具有很强的时效性,所以需要在物品还具有时效性时就将他们推荐给用户。
推荐系统的实时性包括两个方面。首先,推荐系统需要实时地更新推荐列表来满足用户新的行为变化。很多推荐系统都会在离线状态每天计算一次用户推荐列表,然后于在线期间将推荐列表展示给用户。这种设计显然是无法满足实时性的。与用户行为相应的实时性,可以通过推荐列表的变化速率来预测。如果推荐列表在用户有行为后变化不大,或者没有变化,说明推荐系统的实时性不高。
实时性的第二个方面是推荐系统需要能够将新加入系统的物品推荐给用户,这主要考验了推荐系统处理物品冷启动的能力。对于新物品推荐能力,我们可以利用用户推荐列表中有多大比例的物品是当天新加的来预测。
9.健壮性(Robust,鲁棒性)
衡量一个推荐系统抗击作弊的能力。
在实际系统中,提高系统的健壮性,除了选择健壮性高的算法,还有以下方法:
(1) 设计推荐系统时尽量使用代价比较高的用户行为。比如攻击购买行为的代价远远大于攻击浏览行为。
(2) 在使用数据前,进行攻击检测,从而对数据进行清理。
10.商业目标
设计推荐系统时需要考虑最终的商业目标,而网站使用推荐系统的目的除了满足用户发现内容的需求,也需要利用推荐系统加快实现商业上的指标。
11.推荐系统评价指标简表
–《推荐系统评价指标综述》朱郁筱,吕琳媛
[1]: 项亮《推荐系统实践》