几种用户相似度计算方法及其优缺点

进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。

这三种相似性都是基于一个称为用户-项目矩阵的数据结构来进行计算的。该数据结构如下:

余弦相似性:把用户评分看作是n维项目空间上的向量,通过计算两个向量之间的夹角余弦来度量两个用户之间的相似性。

皮尔森系数:又称相关相似性,通过Peason相关系数来度量两个用户的相似性。计算时,首先找到两个用户共同评分过的项目集,然后计算这两个向量的相关系数。
    调整余弦相似性:将余弦相似性中的向量,减去用户平均评分向量后,再计算夹角余弦以修正不同用户评分尺度不同的问题。

在数据比较稀疏的情况下,这几种方法均存在一定问题:余弦相似性和调整余弦相似性对于用户未评价项目评分为0的假设;皮尔森系数中用户共同评分项目集可能很小。

在垂直搜索引擎中,用

时间: 2024-10-31 05:06:55

几种用户相似度计算方法及其优缺点的相关文章

汇总从代数角度与几何角度理解相似度计算方法(以机器学习Mahout框架为主线)

相似度的计算是数据挖掘与机器学习中的一个永恒的话题,为了能更好地理解与比较各种相似度计算的方法,能灵活运用到各种计算模型中,自己在研究机器学习之Mahout框架时,源代码中也实现了很多相似度计算方法,本文结合机器学习Mahout框架中各种相似度计算方法的实现,并且从代数角度和几何角度来理解相似度的计算方法.并阐述其优缺点,及自己的适用场景.本文通过总结和归纳,一共总结了9中距离测量方法,方法一到方法七是Mahout中完完本本实现了,其中前面是方面名,破折号后是Mahout中各方法实现的类名,本文

hadoop Mahout中相似度计算方法介绍(转)

来自:http://blog.csdn.net/samxx8/article/details/7691868 相似距离(距离越小值越大) 优点 缺点 取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差 不受用户评分偏高 或者偏低习惯影响的影响 1. 如果两个item相似个数小于2时 无法计算相似距离. [可以使用item相似个数门限来解决.] 没有考虑两个用户之间的交集大小[使用weight参数来解决] 2. 无法计算两个完全相同的items [-1, 1] Euclid

提高app用户参与度的策略详解

我们应按照合理的方式管理用户和产品的生命周期,由"理解用户"到"提升用户体验"再到"精准营销".在这个过程中,建立一个合理的用户参与度衡量指标体系是非常有必要的.本文和大家分享的主要是app运营中,提升用户参与度相关内容,一起来看看吧,希望对大家有所帮助. 用户参与度的界定是因产品而异的 例如,对于一个记账类app,一个有效参与用户应该会每天都登录,添加他新的收入或支出:而对于一个运营商类的app来讲,一个有效参与用户可能是每个月登录一次,进行话

移动互联网不单单只是用户体验度

移动互联网不单单只是用户体验度,优化也很重要2014-05-19 18:55:04归档在 我的博文 | 浏览 2 次 | 评论 0 条 相信有很多做互联网行业的老板已经不单单的只想利用网上销售来盈利.网上的竞争太大了,如果你的公司不够大不够强硬,怎噩梦可 能拼得过别人的饥饿营销.而且从腾讯的微信带来的微信营销之后,企业老板终将会转战手机移动端的争夺. 而且移动互联网营销绝对是一个很好的乐土,但是现在的企业技术不够强硬,不知道怎么去把控,做起来肯定还都是一筹莫展.而且最 重要的一点就是想要做好移动

Mahout中相似度计算方法介绍

在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不 同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法.下图用 于实现相似度计算的组件之间的关系: 图1.项目相似度计算组件 图2.用户相似度计算组件 下面就几个重点相似度计算方法做介绍: 皮尔森相关度 类名:PearsonCorrelationSimilarity 原理:用来

抽屉式导航可能降低产品一半的用户参与度

设想你需要设计一个含有许多页面和模块,不能在一屏内显示完全的应用.你一定会首先想到去设计一个底部或顶部的Tab导航.等一下,多出来的一排导航看上去有点碍眼?我们尝试下把他们收到侧边栏里,或者叫安卓团队给它的名字"侧边抽屉导航". 如果你们的应用的也是多视图的,在你们的团队里,以下话题一定常常引发激烈讨论: 是把导航选项都显示在屏幕上,让你们的用户可以清晰认知app结构,并避免多余操作才能发现;还是使用侧导航让主屏的显示区域更大些. 目前,侧导航在安卓设备上比较流行,而iOS平台上使用的

三种Tomcat集群方式的优缺点分析

三种Tomcat集群方式的优缺点分析 2009-09-01 10:00 kit_lo kit_lo的博客 字号:T | T 本文对三种Tomcat集群方式的优缺点进行了分析.三种集群方式分别是:使用DNS轮询,使用Apache R-proxy方式,以及使用Apache mod_jk方式. AD:WOT2014课程推荐:实战MSA:用开源软件搭建微服务系统 Tomcat集群方式有三种,分别是: 1.使用DNS轮询. 2.使用Apache R-proxy方式. 3.使用Apache mod_jk方式

运用页面二次点击,提升网站用户体验度

今天广州SEO跟大家分享的文章题目是:<运用页面二次点击,提升网站用户体验度>,简单的说就是用户看了一个页面之后,还在当前浏览页面看了用户同样需要看得页面,这样就完成了用户二次需求,用户二次点击了. 在网站关键词排名比较稳定后,这时我们进入了SEO后期维护工作.SEO的后期工作,其实就是根据数据对网站不断进行微调,从而提升用户的体验.那么这些数据我们从个哪里来?这时我们需要用到百度统计里的页面点击图和链接点击图.注意,现在不能用第三方数据了哈.. 页面点击图是百度统计里面的一项统计工具,大多数

vsftpd 的三种用户和目录权限

vsftpd 有三种登录方式 匿名用户 本地用户 虚拟用户 下面分别介绍这三种用户的配置 1.匿名用户 当用yum安装好vsftpd之后修改一下配置文件,并重启就可以使用匿名用户访问了 # yum  -y install vsftpd # vi /etc/vsftpd/vsftpd.conf anonymous_enable=YES               开启匿名用户登录 anon_upload_enable=YES             允许匿名用户上传权限 anon_mkdir_wr