如何利用Spark MLlib进行个性推荐？

在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。

协同过滤(Collaborative Filtering, 简称CF) 是利用集体智慧的一个典型方法。换句话说，就是借鉴和你相关人群的观点来进行推荐。

MLlib中的协同过滤，常应用于推荐系统。

利用某兴趣相投、拥有共同经验之群体的喜好，来推荐使用者感兴趣的资讯，补充用户-商品(User-Item)效用矩阵中所缺失的部分

MLlib当前支持基于模型的协同过滤，其中用户和商品通过一小组隐语义因子进行表达，并且这些因子也用于预测缺失的元素。

为此， MLlib实现了交替最小二乘法(ALS) 来学习这些隐性语义因子。

基于用户的协同过滤（User CF）

基于用户对物品的偏好找到相邻邻居用户，然后将邻居用户喜欢的推荐给当前用户。上述过程就属于User CF。

基于物品的CF（Item CF）

原理和基于用户的CF类似，只是在计算邻居时采用物品本身，而不是从用户的角度，即基于用户对物品的偏好找到相似的物品，然后根据用户的历史偏好，推荐相似的物品给他。

两者的计算复杂度和适用场景皆不同

图书推荐的例子

数据格式：“用户书打分”

用户1和5，具有相同的兴趣。他们都喜欢101这本书，对102的喜欢弱一些，对103的喜欢更弱

用户1和4，具有相同的兴趣，他们都喜欢101和103，没有信息显示用户4喜欢102。

用户1和2，兴趣好像正好相反，用户1喜欢101，但用户2讨厌101，用户1喜欢103而用户2正好相反。

用户1和3，交集很少，只有101这本书显示了他们的兴趣

那么应该给用户1推荐哪本书？不是101, 102或者103，因为用户已购买，推荐系统需要发现新的事物。

直觉上，用户4、5与用户1类似，所以推荐一些用户4和5喜欢的书籍，给用户1是不错的。

这样使得104、105和106成为可能的推荐。

整体上看，104是最有可能的一个推荐，这基于104的4.5和4.0的偏好打分。

大部分的推荐系统，通过给item评价打分来实现。

评价推荐系统的一种方式，是评价它的评估偏好值的质量

评价评估偏好和实际偏好的匹配度。

训练集和打分

计算评估值和实际值之间的平均距离，分值越低越好。

0.0表示非常好的评估，这说明评估值和实际值根本没有差距

可以通过和其它朋友共同喜欢某个或某类影片，来确定用户相似

通常是通过“距离”来表示相似

例如：欧几里得距离、皮尔逊相关度、曼哈顿距离、Jaccard系数等等。

根据上述“距离”的算法，可以找出与自己“口味一样”的人了，但这并不是目的。目的是找出推荐的物品。

时间： 2025-01-14 10:08:38

如何利用Spark MLlib进行个性推荐？的相关文章

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述在Spark MLlib中,推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法.而基于的算法是FunkSVD算法,即将m个用户和n个物品对应的评分矩阵M分解为两个低维的矩阵:$$M_{m \times n}=P_{m \times k}^TQ_{k \times n}$$ 其中k为分解成低维的维数,一般远比m和n小.如果大

使用Spark MLlib进行情感分析

使用Spark MLlib进行情感分析使用Spark MLlib进行情感分析一.实验说明在当今这个互联网时代,人们对于各种事情的舆论观点都散布在各种社交网络平台或新闻提要中.我们可以在移动设备或是个人PC上轻松地发布自己的观点.对于这种网上海量分布地数据,我们可以利用文本分析来挖掘各种观点.如下图中,CognoviLabs利用Twitter上人们发布对于美国大选两个候选人的推特,进行情感分析的结果.从这张图我们也可以直观地感受到民意所向(此图发表日期为10月10日,早于今年美国大选的日子)

Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”. l“机器学习是对能通过经验自动改进的计算机算法的研究”. l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准.” 一种经常引用的英文定义是:A computer program is said

使用 Spark MLlib 做 K-means 聚类分析[转]

原文地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/ 引言提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋.然而学习并使用机器学习算法来处理数据却是一项复杂的工作,需要充足的知识储备,如概率论,数理统计,数值逼近,最优化理论等.机器学习旨在使计算机具有人类一样的学习能力和模仿能力,这也是实现人工智能的核心思想和方法.传统的机器学习算法,由于技术和

Spark MLlib（下）--机器学习库SparkMLlib实战

1.MLlib实例 1.1 聚类实例 1.1.1 算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异.聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常见的还有层次法(CURE.CHAMELEON等).网格算法(STING.WaveCluster等),等等. 较权威的聚类问题定义:所谓聚类问题,就是给

Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1.MLlib实例 1.1 聚类实例 1.1.1 算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异.聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常见的还有层次法(CURE.CHAMELEON等).网

十二、spark MLlib的scala示例

简介 spark MLlib官网:http://spark.apache.org/docs/latest/ml-guide.html mllib是spark core之上的算法库,包含了丰富的机器学习的一系列算法.你可以通过简单的API来构建算法模型,然后利用模型来进行预测分析推荐之类的. 它包含了一些工具,如: 1)算法工具:分类.回归.聚类.协同等 2)特征化工具:特征提取.转换.降维.选择等 3)管道:用于构建.评估和调整机器学习管道的工具 4)持久性:保存和加载算法.模型.管道 5)实用

基于Spark MLlib平台的协同过滤算法---电影推荐系统

基于Spark MLlib平台的协同过滤算法---电影推荐系统又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用. 说到推荐系统,大家可能立马会想到协同过滤算法.本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用.其中,主要包括三部分内容: 协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析一.协同过滤算法概述本人对算法的研究,目前还不是很深入,这里简单的介绍下其工作原理. 通常,

Spark MLlib Linear Regression线性回归算法

1.Spark MLlib Linear Regression线性回归算法 1.1 线性回归算法 1.1.1 基础理论在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回归系数的模型参数的线性组合. 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间