协同过滤-音乐推荐

一.协同过滤算法

基于用户的协同过滤算法:这种算法最大的问题如何判断并量化两人的相似性,思路是这样

例子:

有3首歌放在那里,《最炫民族风》,《晴天》,《Hero》。

A君,收藏了《最炫民族风》,而遇到《晴天》,《Hero》则总是跳过;

B君,经常单曲循环《最炫民族风》,《晴天》会播放完,《Hero》则拉黑了

C君,拉黑了《最炫民族风》,而《晴天》《Hero》都收藏了。

我们都看出来了,A,B二位品味接近,C和他们很不一样。

那么问题来了,说A,B相似,到底有多相似,如何量化?

我们把三首歌想象成三维空间的三个维度,《最炫民族风》是x轴,《晴天》是y轴,《Hero》是z轴,对每首歌的喜欢程度即该维度上的坐标,并且对喜欢程度做量化(比如: 单曲循环=5,下载=4,收藏=3,主动播放=2 ,听完=1,跳过=-1 ,拉黑=-5 )。

那么每个人的总体口味就是一个向量,A君是(3,-1,-1),B君是(5,1,-5),C君是(-5,3,3)。

我们可以用向量夹角的余弦值来表示两个向量的相似程度,0度角(表示两人完全一致)的余弦是1,180%角(表示两人截然相反)的余弦是-1。

根据余弦公式,夹角余弦=向量点积/ (向量长度的叉积)= ( x1x2 + y1y2 + z1z2) / (跟号(x1平方+y1平方+z1平方) x跟号(x2平方+y2平方+z2平方) )

可见A君B君夹角的余弦是0.81,A君C君夹角的余弦是-0.97,公式诚不欺我也。

以上是三维(三首歌)的情况,如法炮制N维N首歌的情况都是一样的。

这种算法,最核心的关键是要如何找到和我爱好相似的人。在实际操作中,如果全部计算N个人对N首歌的喜好程度,计算量太大。前面的过程中我们计算出了相似度,我们可以只取相似度大于0.9的K个人,然后用相似度X喜欢程度求和,这样我们就可以得到每首歌对于你来说的推荐度了,这大致上就是协同过滤算法的基础。

我们来看一下这个算法对于网易云音乐的切合度,其实虾米音乐更加可能采用这种协同过滤算法,因为虾米有一个功能,叫“品味相似”功能,根据你的品味推荐爱好相同的好友(虽然根据页面提示,更加可能与关注的歌手有关,但不清楚是否有加入根据播放记录来进行推荐)这和我们前面计算用户相似度的算法是不是很相似?而网易云音乐更加可能是采取下面我们要提到的算法。

而根据物品的协同过滤算法,更加常用于购物方面。也就是amazon发明的,“买了这个商品的人,也买了XXXX”。在购物方面,用户最终购买商品的行为数目不多,用这种算法比较简便,准确度也较高。但在音乐APP中,一个用户会听许多首歌曲,用这种算法,计算量大,准确度也很难保证。

二.潜在因子算法

这种算法的思想是这样:每个用户(user)都有自己的偏好,比如A喜欢带有小清新的、吉他伴奏的、王菲等元素(latent factor),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。我们希望能找到这样两个矩阵:

一,用户-潜在因子矩阵Q,表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。比如下面这样:

二,潜在因子-音乐矩阵P,表示每种音乐含有各种元素的成分,比如下表中,音乐A是一个偏小清新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2……

利用这两个矩阵,我们能得出张三对音乐A的喜欢程度是:张三对小清新的偏好音乐A含有小清新的成分+对重口味的偏好音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……

即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69

每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵。(注,这里的破浪线表示的是估计的评分,接下来我们还会用到不带波浪线的R表示实际的评分):

因此我们对张三推荐四首歌中得分最高的B,对李四推荐得分最高的C,王五推荐B。

如果用矩阵表示即为:

下面问题来了,这个潜在因子(latent factor)是怎么得到的呢?

由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的,事实上我们能获得的数据只有用户行为数据。我们沿用量化标准:单曲循环=5,分享=4,收藏=3,主动播放=2 ,听完=1,跳过=-2 ,拉黑=-5,在分析时能获得的实际评分矩阵R,也就是输入矩阵大概是这个样子:

事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵

例如我们上面给出的那个例子可以分解成为这样两个矩阵:

这两个矩阵相乘就可以得到估计的得分矩阵:

将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。

在这个例子里面用户7和用户8有强的相似性:

推荐的结果来看,正好推荐的是对方评分较高的音乐:

这应该就是网易云音乐所采用的基础的算法。从网易云音乐的的个版本迭代来看,一开始的时候网易云音乐在初始页面的时候让用户选择喜欢的tag,现在的新用户引导界面是通过一个测试,来测试你基础的音乐爱好。可以看出,这个就是潜在因子算法上先确定用户基础的潜在因子,然后在用户接下来的使用过程中,根据用户的操作来强化用户的潜在因子。

当确定了最基础的推荐算法之后,用户可以得到精准的推荐曲目,那下来我们还应该做什么呢?对于大多数的用户,在使用推荐功能时,往往不会需要听重复类型的歌曲,用户不会希望推荐的全部都是听过的热门歌曲,不会希望推荐的都是相同类型的歌曲,这就需要具体的筛选过程了。因为对于音乐推荐而言,如果你推荐的都是热门的歌曲,哪怕这些歌确实是他喜欢的,但是用户是不会有惊喜感的。比如说一个用户平常都喜欢听周杰伦的歌,之后的推荐列表也都是周杰伦的曲目。虽然这确实是用户喜欢的,但很难有惊喜感。一个音乐APP能够让人有惊艳的感觉,所推荐的歌曲,除了喜欢之后,还应该是大多都没听过,或者好久以前听过早就忘记了名字,这样才能够有足够的用户体验。

而QQ音乐最近也推出了自己的个性化推荐功能,下图是他的推荐算法引擎:

但它的用户反馈却并不是很好,我认为主要的原因有:

1.根据歌手,歌单等进行推荐更难获得合适的歌曲。因为歌手,歌单等更加的复杂,用户会因为一首歌而喜欢上某个歌手,但不一定喜欢他的所有歌曲。网易云音乐也有这个功能,但并没有出现在个性化推荐模块,而是将其放在认识的人“动态”功能模块,让用户做进一步的选择。

2.对于推荐结果之后的进一步筛选做的不足。比如我喜欢日语歌就给我推荐甩葱歌,确实可以,但这很难做到推荐功能希望达到的惊艳的效果

时间: 2024-11-10 13:19:13

协同过滤-音乐推荐的相关文章

基于MLlib的机器学习--协同过滤与推荐

<Spark快速大数据分析> 11.5.4 协同过滤与推荐 协同过滤是一种根据用户对各种产品的交互与评分来推荐新产品的推荐系统技术. 协同过滤引入的地方就在于它只需要输入一系列用户/产品的交互记录: 无论是显式的交互(例如在购物网站上进行评分)还是隐式的(例如用户访问了一个 产品的页面但是没有对产品评分)交互皆可.仅仅根据这些交互,协同过滤算法就能 够知道哪些产品之间比较相似(因为相同的用户与它们发生了交互)以及哪些用户之间 比较相似,然后就可以做出新的推荐. 尽管MLlib的API使用了用户

基于协同过滤的推荐引擎(实战部分)

基于协同过滤的推荐引擎(理论部分) 时隔十日,终于决心把它写出来.大多数实验都是3.29日做的,结合3.29日写的日记完成了这篇实战. 数据集准备 数据集使用上篇提到的Movielens电影评分数据里的ml-latest-small数据集,下载完成后有下面四个csv文件. 我们这里只需要ratings.csv就够了,打开以后会发现长这样: 是的,它果然和数据库里的没两样,上篇我们介绍的一般评分估计也好,神奇的SVD评分估计也好,前提都是有一个长成下面这样的物品-用户矩阵 然后提出其中的两列,传给

基于协同过滤的推荐引擎

(一)推荐引擎用例 京东.淘宝根据客户的购买历史来推荐: 爱奇艺.乐视根据向用户推荐电影: (二)推荐算法 基于关系规则推荐:用户A经常同时购买了哪些商品,分析这些商品的关联规则,则用户B购买其中某一商品,可推荐其它商品: 基于内容推荐:用户喜欢A电影,B电影和A属于同一类型,比如爱情片,则该用户还可能喜欢B电影: 基于人口统计学推荐:将用户A的属性或特征一一罗列,如年龄.性别.职业等,如果用户B和A具有相似的属性,则用户B和用户A可能有相似购物喜好. 基于协同过滤: 基于用户:将一个用户对同所

推荐引擎算法学习导论:协同过滤、聚类、分类

作者:July.出处:结构之法算法之道 本文转自互联网,仅供学习收藏只用,如有侵权,请联系本人删除. 引言 昨日看到几个关键词:语义分析,协同过滤,智能推荐,想着想着便兴奋了.于是昨天下午开始到今天凌晨3点,便研究了一下推荐引擎,做了初步了解.日后,自会慢慢深入仔细研究(日后的工作亦与此相关).当然,此文也会慢慢补充完善. 本文作为对推荐引擎的初步介绍的一篇导论性的文章,将略去大部分的具体细节,侧重用最简单的语言简要介绍推荐引擎的工作原理以及其相关算法思想,且为了着重浅显易懂有些援引自本人1月7

探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤(转)

第 2 部分: 深入推荐引擎相关算法 - 协同过滤 本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者高效的实现这些算法. 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法.它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”.本文将带你深入了解协同过滤的秘密,并给出基于 Apache Mahout 的协同过滤算法的高效实现.Apache Mahout 是 ASF 的一个

深入推荐引擎相关算法 - 协同过滤

集体智慧和协同过滤 什么是集体智慧 集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web 应用中利用集体智慧构建更加有趣的应用或者得到更好的用户体验.集体智慧是指在大量的人群的行为和数据中收集答案,帮助你对整个人群得到统计意义上的结论,这些结论是我们在单个个体上无法得到的,它往往是某种趋势或者人群中共性的部分. Wikipedia 和 Google 是两个典型的利用集体智慧的 Web 2.0 应用: Wikip

推荐算法之基于用户的协同过滤算法

协同过滤是推荐算法中最基本的算法,主要分为基于用户的协同过滤算法和基于物品的协同过滤算法. 这篇文章主要介绍基于用户的协同过滤算法,简单来说,要给用户u作推荐,那么只要找出那些和u之前的行为类似的用户,即和u比较像的用户,把他们的行为推荐给用户u即可.所以基于用户的系统过滤算法包括两个步骤:1)找到和目标用户兴趣相似的用户集合  2)找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户. 第一步的关键点在于计算用户之间的相似度,相似度一般通过Jaccard公式或者余弦相似度即可求

基于协同过滤的个性化Web推荐

         下面这是论文笔记,其实主要是摘抄,这片博士论文很有逻辑性,层层深入,所以笔者保留的比较多.          看到第二章,我发现其实这片文章对我来说更多是科普,科普吧-- 一.论文来源 Personalized Web Recommendation via Collaborative Filtering(很奇怪via为什么小写,先记住吧) (Candidate)博士研究生:孙慧峰 (Advisor)导师:陈俊亮(院士) (Academic Degree Applied for)

机器学习算法原理解析——协同过滤推荐

1. CF协同过滤推荐算法原理及应用 1.1 概述 什么是协同过滤(Collaborative Filtering,简称CF)? 首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做? 大部分的人会问问周围id朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐.这就是协同过滤的核心思想. 协同过滤算法又分为基于用户的协同过滤算法和基于物品的协同过滤算法. 1.2 案例需求 如下数据是各用户对各文档的偏好: 用户/文档 文档A 文档B 文