大数据-实时推荐系统最主流推荐系统itemCF和userCF

推荐系统的分类:

基于应用领域分类:电子商务推荐,社交好友推荐,搜索引擎推荐,信息内容推荐
基于设计思想:基于协同过滤的推荐,基于内容的推荐,基于知识的推荐,混合推荐
基于使用何种数据:基于用户行为数据的推荐,基于用户标签的推荐,基于社交网络数据,基于上下文信息(时间上下文,地点上下文等等)

协同过滤:

协同过滤的基本思想(基于用户):

协同过滤一般是在海量的用户中发掘出一小部分和你品味比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成为一个排序的目录作为推荐给你

核心问题:

如何确定一个用户是不是和你有相似的品味?

如何将邻居们的喜好组织成一个排序的目录?

实现协同过滤的步骤:

收集用户偏好
找到相似的用户或物品
计算推荐(基于用户,基于物品)

收集用户偏好的方法:

通过收集用户把用户的特征变成向量(一般变成向量前需要降噪(抛去或者修改),归一化)

相似度:

当已经对用户行为迚行分析得到用户喜好后,我们可以根据用户喜好计算相似用户和物品,然后基于相似用户戒者物品迚行推荐,这就是最典型的CF 的两个分支:基于用户的CF 和基于物品的CF。这两种方法都需要计算相似度

把数据看成空间中的向量(降噪,归一化)

距离的计算:

欧几里得距离
其它距离

基于距离计算相似度:

基于相关系数计算相似度:

皮尔逊相关系数:

基于夹角余弦计算相似度:

基于Tanimoto系数计算相似度:

同现相似度:

同现相似度模型:根据用户评分数据表,生成物品的相似矩阵;

邻居(用户,物品)的圈定:

固定数量的邻居:K-neighborhoods
基于相似度门槛的邻居:Threshold-based neighborhoods

原文地址:https://www.cnblogs.com/abc1168/p/9610325.html

时间: 2024-10-13 16:00:11

大数据-实时推荐系统最主流推荐系统itemCF和userCF的相关文章

大数据-实时推荐系统最主流推荐系统itemCF和userCF视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

大数据实时流统计视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

赵强老师免费公开课第三季:大数据实时计算

大数据实时计算公开课课程简介 课程简介 实时处理系统,也称为流式处理系统,是目前大数据领域中非常热门的处理技术.相对于传统的离线数据处理系统,实时系统能够更加准确的得到处理的结果数据.目前实时处理系统有两大主流框架:一种是基于Apache Kafka和Apache Storm的框架:另一种是基于Spark Streaming的处理框架. 本次公开课将基于Apache Kafka和Apache Storm的框架,详细介绍这两部分的内容:第一部分将介绍大数据的消息系统:第二部分将介绍大数据的实时处理

宜信大数据实时授信平台技术、架构、模型解析(PPT)

宜信大数据实时授信平台包含姨搜.知识图谱.授信和反欺诈引擎等模块.平台结合了用户授权数据.第三方数据.互联网海量数据等不同数据源,最大限度地获取 用户信息.授信和反欺诈引擎结合了专家知识和机器学习算法,分析客户的信用状况和欺诈风险,实时估计授信额度.检测欺诈风险. 这个平台到底是做什么事情的?通过对各种各样不同的数据员的接入,包括自己的数据.通过对它的接入分析,梳理,挖掘,关联和理解. 做了一堆的事情,但是三样最重要的事情是说, 第一个分析客户的信用状况. 二我们会检查欺诈的风险,我们这个行业欺

【大数据】大数据-实时统计分析-方案选型

大数据-实时统计分析-方案选型 image2017-10-27_11-10-53.png (1067×738) elasticsearch-head Elasticsearch-sql client spark streaming reload_百度搜索 基于spark streaming的网管系统告警过滤算法的设计与实现 - 其它论文 - 道客巴巴 scala - Spark Streaming into HBase with filtering logic - Stack Overflow

电商大数据项目(二)-推荐系统实战之实时分析以及离线分析

电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析http://blog.51cto.com/6989066/2325073电商大数据项目-推荐系统实战之推荐算法http://blog.51cto.com/6989066/2326209电商大数据项目-推荐系统实战之实时分析以及离线分析http://blog.51cto.com/6989066/2326214 五.实时分析Top IP(实时分析Top用户)一)模块介绍电商网站运营中,需要分析网站访问排名前N的IP,主要用来审计是否

腾讯数十亿广告的秘密武器:利用大数据实时精准推荐

在过去几年,你在腾讯做了什么来推动大数据的应用? 过去三年,我一直在坚持一件事:推动大数据的实时应用.现在从国外数据中心的数据,一秒钟可以达到深圳数据中心,这就是腾讯具备的数据能力.有了这个能力,就可以做很多商业化行为的模式. 目前腾讯收集的数据已经超过了1万亿条, 计算机规模已经超过了8千8百台.这么庞大的数据如果能实时处理,就能发挥出巨大的商业价值.这个商业价值就是精准推荐. 每年腾讯几十亿的广告,其基础来自于数据的精准推荐.实时数据推荐还可以用于视频的推荐,腾讯音乐推荐,新闻客户端的推荐,

Storm大数据实时计算

大数据也是构建各类系统的时候一种全新的思维,以及架构理念,比如Storm,Hive,Spark,ZooKeeper,HBase,Elasticsearch,等等 storm,在做热数据这块,如果要做复杂的热数据的统计和分析,亿流量,高并发的场景下,最合适的技术就是storm,没有其他 举例说明: Storm:实时缓存热点数据统计->缓存预热->缓存热点数据自动降级 Hive:Hadoop生态栈里面,做数据仓库的一个系统,高并发访问下,海量请求日志的批量统计分析,日报周报月报,接口调用情况,业务

大数据技术之_24_电影推荐系统项目_04_推荐系统算法详解

第九章 推荐系统算法详解9.1 常用推荐算法分类9.1.1 基于人口统计学的推荐与用户画像9.1.2 基于内容的推荐与特征方程9.1.3 基于协同过滤的推荐 第九章 推荐系统算法详解 9.1 常用推荐算法分类 9.1.1 基于人口统计学的推荐与用户画像 9.1.2 基于内容的推荐与特征方程 特征按照不同的数据类型分类,有不同的特征处理方法 推荐系统常见反馈数据 基于 UGC 的推荐 TF-IDF算法代码示例 9.1.3 基于协同过滤的推荐 基于近邻的协同过滤的推荐 基于模型的协同过滤的推荐 模型