推荐系统学习之评测指标

转自 http://blog.csdn.net/sinat_33741547/article/details/52704986

最近开始学习推荐系统,特记录一下学习过程并做个分享。
推荐系统是什么不用多说,这里先介绍一下推荐系统的各种评测指标。
1、用户满意度
这个指标应该是最能体现一个推荐系统好坏的指标,但获取只能通过用户在线的反馈,类似用户问卷调查,或者用户对推荐物品的行为,比如购买、收藏、评分等判别。
2、预测准确度
在离线预测用户行为的评价上,这个指标相当重要。在统计学习中,也就是根据训练数据集学习得到的系统对测试数据集的预测准确度,既泛化能力。
推荐系统在这主要分为两个方面,评分预测与TopN预测。
(1)评分预测:类似豆瓣电影的评分,预测用户对推荐的某一物品的评分从而达到选择最优推荐的目的。而评价评分预测准确度的方法,一般有两种:
RMSE(均方根偏差)和MAE(平均绝对偏差)
(2)TopN预测:类似热门推荐,推荐N个商品给用户。评价这个指标的方法,一般也为两种:
准确率,既根据用户历史行为推荐的商品N与用户实际喜欢的商品M的交集A,与N的比值,A/N
召回率,既根据用户历史行为推荐的商品与与用户实际喜欢的商品M的交集A,与M的比值,A/M
3、覆盖率
普遍假设网站商品都呈长尾分布,既热门的商品总是少数,而且其他商品的热门程度呈曲线下降,存在很多冷门商品。而评价推荐系统的覆盖率即是看系统为所有用户推 荐的全部商品数量,与网站中所有商品数量的差值。当然一般用以下两个指标来评价:
(1)信息熵:又称香农熵,指代信息量的多少,一般来说,覆盖率越高的推荐系统,信息熵越大。
(2)基尼系数:一个经济学系数,在这里指代推荐系统中,热门物品与冷门物品的比值,一般来说,覆盖率越高的推荐系统,基尼系数越接近0
4、多样性
推荐系统给出推荐列表中的商品,两两之间的不相似性。
5、新颖性
推荐给用户的商品是用户从来没有听说过的物品。
6、惊喜度
与用户历史兴趣不相符,但又能让用户满意的商品。
7、信任度
这里一般用添加推荐解释来达成
8、实时性
(1)实时根据用户的新行为来推荐物品,如用户购买手机,同时给用户推荐手机壳
(2)推荐新加入系统的商品
9、健壮性
模拟攻击之后,用户的推荐列表的改变

时间: 2024-10-29 19:11:07

推荐系统学习之评测指标的相关文章

推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率:召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率. 一般来说,Precision就是检索出来的条目(比如:文档.网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了. 正确率.召回

【转】推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

原文链接 http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/ 下面简单列举几种常用的推荐系统评测指标: 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率:召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率. 一

推荐系统学习07-Waffles

介绍 Waffles 英文原意是蜂蜜甜饼,在这里却指代一个很强大的机器学习的开源工具包. Waffles里包括的算法特别多.涉及机器学习的方方面面,推荐系统位于当中的Waffles_recommend  tool,大概仅仅占整个Waffles的1/10的内容,其他还有分类.聚类.採样.降维.数据可视化.音频处理等许很多多工具包,预计能与之媲美的也就数Weka了. 你能够在waffles看到关于这个工具的具体内容. 你还能够訪问waffles的github网站. waffles与其它的机器学习工具

基于词汇衔接的文档级扩展机器翻译评测指标

摘要 本文提出了通过词汇链接的使用来提高文档级别机器翻译评估性能的想法.作为一种实现文字连贯的语言手段,词汇衔接通过相同或相关的意思的单词将句子连在一起组成一个有意义的交织结构.机器翻译与人工翻译进行了一场比较来表明他们的关键区别之一是人工翻译往往比机器翻译使用更多的衔接手段.很多方法应用这个特点来评测机器翻译提交的文档,其中包括不依赖于参考译文.实验结果表明,将这一特征与语句级评价指标进行融合可以提高与人工评判的相关性. 1 介绍 在过去的十年里,机器翻译从自动评价的发展中获益良多.在某种程度

推荐系统学习(2)——基于TF-IDF的改进

使用用户打标签次数*物品打标签次数做乘积的算法尽管简单.可是会造成热门物品推荐的情况.物品标签的权重是物品打过该标签的次数,用户标签的权重是用户使用过该标签的次数.从而导致个性化的推荐减少,而造成热门推荐. 运用TF-IDF的思想能够对算法进行改进.TF-IDF(term frequemcy-inverse documnet frequency)是一种用于资讯检索和文本挖掘的加权技术.用来评估一个词的重要程度.其主要思想是假设某个词或短语在一篇文章中出现的频率TF高,而且在其它文章中非常少出现,

基于标签的推荐系统学习

最近看一些推荐系统的东西.比较感兴趣的是基于标签的推荐系统.也就是通过用户的标签行为建立起用户和目标物品的联系,从而挖掘用户的兴趣或者是尽兴定向的推荐. 一个用户的标签行为一般由一个三元组组成<用户,物品,标签>(<u,i,b>)即用户u给物品i打上了b标签. 一个简单的基于标签的推荐系统可以通过如下步骤实现: 1.统计每个用户最常用标签: 2.对于每个标签,统计被打过这个标签次数最多的物品: 3.对于一个用户,找到他常用的标签,从而找到具有这些标签的热门物品进行推荐. 从而可以得

推荐系统学习04-LibMF

介绍   LibMF的作者是大名鼎鼎的台湾国立大学,他们在机器学习领域享有盛名,近年连续多届KDD Cup竞赛上均获得优异成绩,并曾连续多年获得冠军.业界常用的LibSVM, Liblinear等都是他们开发的,开源代码的效率和质量都非常高. LibMF是在潜在空间使用两个矩阵,接近一个不完全矩阵.(不知怎么翻译,原句是:LIBMF is an open source tool for approximating an incomplete matrix using the product of

系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

转自:http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/ 1.准确率与召回率(Precision & Recall) 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量.其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率:召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率. 一般来说,Precision就是检索出来的条目(

推荐系统学习03-SVDFeature

介绍 SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11竞赛中开发出来的工具包.它的目的是有效地解决基于特征的矩阵分解.新的模型能够仅仅通过定义新的特征来实现.这样的基于特征的设置同意我们把非常多信息包括在模型中,使得模型更加与时俱进.使用此工具包,能够非常easy的把其它信息整合进模型,比方时间动态,领域关系和分层信息. 除了评分预測,还能够实现pairwise ranking任务. 模型 SVDFeature的模型定义例如以下