百万用户，八十万商品，如何计算基于物品的协同过滤

问题描述：

数据包含了一百四十万用户对80万商品的打分。要利用基于物品的协同过滤来计算。如果直接两两计算140万维的向量相似度，肯定不行啊。

问题分析：

每个物品的向量虽然是140万维的，但是其实给一个物品打分的用户其实不多，这个矩阵是非常稀疏的。而且根据长尾问题来说，大部分物品只有很少的用户有过评分。

总结来说就是每个物品评分的用户远远小于140万，每个用户评价过的商品远远小于80万。所以我们的问题就转换为如何处理这个稀疏的矩阵。

解决方法：

在计算相似度时，选用了夹角余弦（因为相比于杰卡德，夹角余弦考虑了评分的大小，实测效果更好）

第一步首先按商品ID进行group by，数据转换为，商品：评价过该商品用户。然后计算商品向量的长度，也就是用户评分的平方之和再开平方。

第二步，按用户id进行group by，将数据转换为，用户id :该用户评价过得商品。然后计算两个商品的相似度。得到<item_id,item_id>:评分

第三步，累加商品对的评分，除以两个商品的向量长度得到相似度。

参考资料：

https://www.jianshu.com/p/ae1fe36fdb90

原文地址：https://www.cnblogs.com/earendil/p/8714819.html

时间： 2024-11-05 17:26:32

百万用户，八十万商品，如何计算基于物品的协同过滤的相关文章

推荐算法简介：基于用户的协同过滤、基于物品的协同过滤、基于内容的推荐

参考来源: https://blog.csdn.net/u011748319/article/details/90269818 1.推荐算法 1.1.协同过滤协同过滤是目前应用最广泛的推荐算法,它仅仅通过了解用户与物品之间的关系进行推荐,而根本不会考虑到物品本身的属性. 可分成两类: 1.基于用户(user-based)的协同过滤 2.基于商品(item-based)的协同过滤 1.1.1.基于用户的协同过滤基本思想: 基于用户对物品的偏好找到邻居用户(相似用户),然后将邻居用户(相似用户)

基于用户和基于物品的协同过滤算法的比较

首先回顾一下,协同过滤算法主要有两种,一种是基于用户的协同过滤算法(UserCF),另一种是基于物品的协同过滤算法(ItemCF). 基于用户的协同过滤算法主要有两步: 1)找到和目标用户兴趣相似的用户集合 2)找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户. 基于物品的协同过滤算法主要有两步: 1)计算物品之间的相似度. 2)根据物品的相似度和用户的历史行为给用户生成推荐列表. 由此可以看出UserCF是推荐用户所在兴趣小组中的热点,更注重社会化,而ItemCF则是根据用

ItemCF_基于物品的协同过滤_MapReduceJava代码实现思路

2017年2月19日, 星期日 ItemCF_基于物品的协同过滤 1. 概念 2. 原理如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路数据集: 第一步:构建物品的同现矩阵第二步:构建用户的得分矩阵第三步:同现矩阵*评分矩阵第四步:拿到最终结果,排序,得到给用户的推荐列表问题一:物品同现矩阵和用户得分矩阵如何构建? 问题二:矩阵相乘如何来做? 六个MapReduce step1_第一个MapReduce: 目的-->去重去除数据

基于物品的协同过滤(二)

MapReduce实现基于物品的协同过滤: 实现过程中需要执行多个mapreduce任务. 初始数据: u1,i101,5.0 u1,i102,3.0 u1,i103,2.5 u2,i101,2.0 u2,i102,2.5 u2,i103,5.0 u2,i104,2.0 u3,i101,2.0 u3,i104,4.0 u3,i105,4.5 u3,i107,5.0 u4,i101,5.0 u4,i103,3.0 u4,i104,4.5 u4,i106,4.0 u5,i101,4.0 u5,i10

基于物品的协同过滤算法ItemCF算法实现

基于物品的协同过滤算法(ItemCF)的基本思想是:给用户推荐那些和他们之前喜欢的物品相似的物品. 比如,该算法会因为你购买过<Java从入门到精通>而给你推荐<Java并发编程实战>.不过,基于物品的协同过滤算法并不利用物品的内容属性计算物品之间的相似度,二是通过分析用户的行为数据计算物品之间的相似度.该算法认为,物品A和物品B具有很大的相似度是因为喜欢物品A的用户大都也喜欢物品B. 实现代码: # -*- coding=utf-8 -*- from operator impor

Mahout分步式程序开发基于物品的协同过滤ItemCF

阅读导读: 1.简述用Mahout实现协同过滤ItemCF的步骤? 2.如何用API实现Hadoop的各种HDFS命令? 3.Kmeans.java类报错,暂时可以怎么处理? 1. Mahout开发环境介绍在用Maven构建Mahout项目文章中,我们已经配置好了基于Maven的Mahout的开发环境,我们将继续完成Mahout的分步式的程序开发. 本文的mahout版本为0.8. 开发环境: Win7 64bit Java 1.6.0_45 Maven 3 Eclipse Juno Serv

（数据挖掘-入门-5）基于内容的协同过滤与分类

1.动机 2.基于内容的分类器 3.python实现一.动机在前面的文章中介绍了基于用户和基于物品的协同过滤推荐方法,其实无论是基于用户还是基于物品,都是通过群体效应来进行推荐,因为衡量相似度的向量都是基于一定群体用户的评分,所以推荐出来的物品都是热门的流行的物品,对于一些冷门物品可能就无法收到亲睐. 而一个好的推荐系统,不仅能为用户发现热门流行的感兴趣物品,也能为用户提供自己也不了解的但也会感兴趣的物品,即冷门的物品,这样既有益于用户,也照顾了内容提供商. 因此,本文将介绍一种基于内容即物