SimRank协同过滤推荐算法

    在协同过滤推荐算法总结中,我们讲到了用图模型做协同过滤的方法,包括SimRank系列算法和马尔科夫链系列算法。现在我们就对SimRank算法在推荐系统的应用做一个总结。

1. SimRank推荐算法的图论基础

    SimRank是基于图论的,如果用于推荐算法,则它假设用户和物品在空间中形成了一张图。而这张图是一个二部图。所谓二部图就是图中的节点可以分成两个子集,而图中任意一条边的两个端点分别来源于这两个子集。一个二部图的例子如下图。从图中也可以看出,二部图的子集内部没有边连接。对于我们的推荐算法中的SimRank,则二部图中的两个子集可以是用户子集和物品子集。而用户和物品之间的一些评分数据则构成了我们的二部图的边。

2. SimRank推荐算法思想

    对于用户和物品构成的二部图,如何进行推荐呢?SimRank算法的思想是,如果两个用户相似,则与这两个用户相关联的物品也类似;如果两个物品类似,则与这两个物品相关联的用户也类似。如果回到上面的二部图,假设上面的节点代表用户子集,而下面节点代表物品子集。如果用户1和3类似,那么我们可以说和它们分别相连的物品2和4也类似。

    如果我们的二部图是G(V,E)G(V,E),其中V是节点集合,E是边集合。则某一个子集内两个点的相似度s(a,b)s(a,b)可以用和相关联的另一个子集节点之间相似度表示。即:

s(a,b)=C|I(a)||I(b)|∑i=1|I(a)|∑j=1|I(b)|s(Ii(a),Ii(b))s(a,b)=C|I(a)||I(b)|∑i=1|I(a)|∑j=1|I(b)|s(Ii(a),Ii(b))

    其中C是一个常数,而I(a),I(b)I(a),I(b)分别代表和a,b相连的二部图另一个子集的节点集合。s(Ii(a),Ii(b))s(Ii(a),Ii(b))即为相连的二部图另一个子集节点之间的相似度。

    一种特殊情况是,自己和自己的相似度,我们定义为1。即s(a,a)=1s(a,a)=1。还有一种特殊情况是I(a),I(b)I(a),I(b)有一个为空,即a,b中某一个点没有相连的另一个子集中的点,此时s(a,b)=0s(a,b)=0,将这几种情况综合下,则二部图一个子集内两个点的相似度s(a,b)s(a,b)可以表示为:

s(a,b)=???????????1C|I(a)||I(b)|∑i=1|I(a)|∑j=1|I(b)|s(Ii(a),Ii(b))0a=ba≠b,I(a)≠?,I(a)≠?otherwises(a,b)={1a=bC|I(a)||I(b)|∑i=1|I(a)|∑j=1|I(b)|s(Ii(a),Ii(b))a≠b,I(a)≠?,I(a)≠?0otherwise

    如果我们想用上式直接计算两个物品或者两个用户之间的相似度是比较困难的,一般需要通过迭代方式计算。对于a≠b,I(a)≠?,I(a)≠?a≠b,I(a)≠?,I(a)≠?时,我们注意到:

s(a,b)=C|I(a)||I(b)|∑i=1|I(a)|∑j=1|I(b)|s(Ii(a),Ii(b))=C|I(a)||I(b)|∑i=1N∑j=1Npias(a,b)pjbs(a,b)=C|I(a)||I(b)|∑i=1|I(a)|∑j=1|I(b)|s(Ii(a),Ii(b))=C|I(a)||I(b)|∑i=1N∑j=1Npias(a,b)pjb

    其中p为二部图关联边的权重,而N为二部图节点数。

    上面的式子可以继续转化为:

s(a,b)=C∑i=1N∑j=1N(pia∑i=1Npia)s(a,b)(pjb∑j=1Npjb)s(a,b)=C∑i=1N∑j=1N(pia∑i=1Npia)s(a,b)(pjb∑j=1Npjb)

    如果用矩阵表示,则相似度矩阵S=CWTSWS=CWTSW, 其中WW是将权重值p构成的矩阵PP归一化后的矩阵。

    但是由于节点和自己的相似度为1,即我们的矩阵S的对角线上的值都应该改为1,那么我们可以去掉对角线上的值,再加上单位矩阵,得到对角线为1的相似度矩阵。即:

S=CWTSW+I?Diag(diag(CWTSW))S=CWTSW+I?Diag(diag(CWTSW))

    其中diag(CWTSW)diag(CWTSW)是矩阵CWTSWCWTSW的对角线元素构成的向量,而Diag(diag(CWTSW))Diag(diag(CWTSW))将这个向量构成对角矩阵。

    只要我们对S矩阵按照上式进行若干轮迭代,当S矩阵的值基本稳定后我们就得到了二部图的相似度矩阵,进而可以利用用户与用户的相似度度量,物品与物品的相似度度量进行有针对性的推荐。

3. SimRank算法流程

    现在我们对SimRank算法流程做一个总结。

    输入:二部图对应的转移矩阵W,阻尼常数C,最大迭代次数k

    输出:子集相似度矩阵S:

    1) 将相似度S的初始值设置为单位矩阵I.

    2) 对于i=1,2...k:

      a) temp=CWTSWtemp=CWTSW

      b) S=temp+I?Diag(diag(temp))S=temp+I?Diag(diag(temp))

    以上基于普通的SimRank算法流程。当然,SimRank算法有很多变种,所以你可能看到其他地方的SimRank算法描述或者迭代的过程和上面的有些不同,但是算法思想基本和上面相同。

    SimRank算法有很多改进变种,比较著名的一个改进是SimRank++算法。

4. SimRank++算法原理

    SimRank++算法对SimRank算法主要做了两点改进。第一点是考虑了边的权值,第二点是考虑了子集节点相似度的证据。

    对于第一点边的权值,上面的SimRank算法,我们对于边的归一化权重,我们是用的比较笼统的关联的边数分之一来度量,并没有考虑不同的边可能有不同的权重度量,而SimRank++算法则在构建转移矩阵W时会考虑不同的边的不同权重值这个因素。

    对于第二点的节点相似度的证据。回顾回顾上面的SimRank算法,我们只要认为有边相连,则为相似。却没有考虑到如果共同相连的边越多,则意味着两个节点的相似度会越高。而SimRank++算法利用共同相连的边数作为证据,在每一轮迭代过程中,对SimRank算法计算出来的节点相似度进行修正,即乘以对应的证据值得到当前轮迭代的的最终相似度值。

5. SimRank系列算法的求解

    由于SimRank算法涉及矩阵运算,如果用户和物品量非常大,则对应的计算量是非常大的。如果直接用我们第二节讲到了迭代方法去求解,所花的时间会很长。对于这个问题,除了传统的一些SimRank求解优化以外,常用的有两种方法来加快求解速度。

    第一种是利用大数据平台并行化,即利用Hadoop的MapReduce或者Spark来将矩阵运算并行化,加速算法的求解。

    第二种是利用蒙特卡罗法(Monte Carlo, MC)模拟,将两结点间 SimRank 的相似度表示为两个随机游走者分别从结点 a和 b出发到最后相遇的总时间的期望函数。用这种方法时间复杂度会大大降低,但是由于MC带有一定的随机性,因此求解得到的结果的精度可能不高。

6. SimRank小结

    作为基于图论的推荐算法,目前SimRank算法在广告推荐投放上使用很广泛。而图论作为一种非常好的建模工具,在很多算法领域都有广泛的应用,比如我之前讲到了谱聚类算法。同时,如果你理解了SimRank,那么Google的PageRank对你来说就更容易理解了。

    个人理解PageRank只能得到某一个节点自己的权重,而SimRank却可以得到两两之间的权重度量,明显SimRank要更加高大上。:)

(欢迎转载,转载请注明出处。欢迎沟通交流: [email protected])

时间: 2024-10-27 13:25:28

SimRank协同过滤推荐算法的相关文章

协同过滤推荐算法总结

推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究.推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结. 一.推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了.概括来说,可以分为以下5种: 1)基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐.这类推荐算法可以找到用

协同过滤推荐算法

协同过滤推荐算法分为基于用户的协同过滤推荐UserCF和基于物品的协同过滤推荐ItemCF.介绍见<协同过滤的实现步骤>

基于用户的协同过滤推荐算法原理和实现

在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单.该算法1992年提出并用于邮件过滤系统,两年后1994年被 GroupLens 用于新闻过滤.一直到2000年,该算法都是推荐系统领域最著名的算法. 本文简单介绍基于用户的协同过滤算法思想以及原理,最后基于该算法实现园友的推荐,即根据你关注的人,为你推荐博客园中其他你有可能感兴趣的人. 基本思想 俗话说"物以类聚.人以群分",拿看电影这个例子来说,如果你喜欢<蝙蝠侠>.<碟中谍>.&l

Slope One 协同过滤 推荐算法

Slope one  是一个简单,效率较高的协同过滤推荐算法. Slope One 算法是由 Daniel Lemire 教授在 2005 年提出.距今已经10年.   基于如下五点被设计出来: 1. 算法容易实现和维护 2. 对新的评分应该立即给予响应 3. 查询速度要快(虽然可能以牺牲存储量为代价) 4. 对新的用户也要能给出有效的推荐 5. 精度上要有竞争力 slope one用于推荐,其特点是算法逻辑简单,实现容易,算法复杂度低. 像是刚接触推荐系统的朋友可以先采用这种算法来快速实现推荐

一个简单的协同过滤推荐算法

1.推荐系统简介 个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品. 2.推荐系统分类 2.1基于内容的推荐(Content-based Recommendation) 基于内容的推荐系统的核心思想是挖掘被推荐对象的信息.基于内容的推荐算法的前提假设是:如果用户喜欢物品a,那么用户也应该会喜欢与a类似的物品.由于笔者的目的是侧重于介绍协同过滤推荐算法,所以对基于内容的推荐算法举个简单的例子一带而过: 假设一首歌有:名称.歌手.风格.作曲人这4个属性.如果用户Alice对

矩阵分解在协同过滤推荐算法中的应用

在协同过滤推荐算法总结中,我们讲到了用矩阵分解做协同过滤是广泛使用的方法,这里就对矩阵分解在协同过滤推荐算法中的应用做一个总结.(过年前最后一篇!祝大家新年快乐!明年的目标是写120篇机器学习,深度学习和NLP相关的文章) 1. 矩阵分解用于推荐算法要解决的问题 在推荐系统中,我们常常遇到的问题是这样的,我们有很多用户和物品,也有少部分用户对少部分物品的评分,我们希望预测目标用户对其他未评分物品的评分,进而将评分高的物品推荐给目标用户.比如下面的用户物品评分表: 用户\物品 物品1 物品2 物品

协同过滤推荐算法简述

协同过滤推荐算法是一种主流的.目前广泛应用在工业界的推荐算法. 一般,协同过滤推荐分为三种类型. 1.基于用户(user-based)的协同过滤 基于用户的协同过滤算法,主要考虑的是用户和用户之间的相似度,只要找出与目标用户相似度高的其他用户,根据相似用户喜欢的物品,预测目标用户对对应物品的评分,就可以找到评分最高的若干个物品推荐给用户. 2.基于项目(item-based)的协同过滤 基于项目的协同过滤算法,类似于基于用户的协同过滤,只是这往往是根据用户的行为判断物品的相似度(并不是根据物品的

(2)协同过滤推荐算法概述 摘要

依据网络用户对于信息的喜好程度,通过寻找信息之间的相关性或用户之间的相似性程度从而为用户提供有效内容的推荐算法即为协同过滤推荐算法.协同过滤推荐算法是推荐算法中应用最广泛,最成功的.它又分为基于用户的协同过滤和基于项目的协同过滤两种方式.前者是基于用户之间的相似性进行推荐,而后者是基于项目之间的相似性进行推荐.对两种协同过滤算法进行比较,基于用户的协同过滤算法更具社会化的特点,存储消耗和用户数量有关:基于项目的协同过滤算法更具个性化的特点,存储消耗和物品数量有关.协同过滤推荐算法存在数据稀疏性问

协同过滤推荐算法的原理及实现

一.协同过滤算法的原理及实现 协同过滤推荐算法是诞生最早,并且较为著名的推荐算法.主要的功能是预测和推荐.算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品.协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering).简单的说就是:人以类聚,物以群分.下面我们将分别说明这两类推荐算法