推荐系统的架构

本文从互联网收集并整理了推荐系统的架构,其中包括一些大公司的推荐系统框架(数据流存储、计算、模型应用),可以参考这些资料,取长补短,最后根据自己的业务需求,技术选型来设计相应的框架。后续持续更新并收集。。。

图1

界面UI那一块包含3块东西:1) 通过一定方式展示推荐物品(物品标题、缩略图、简介等);2) 给的推荐理由;3) 数据反馈改进个性化推荐;关于用户数据的存放地方:1)数据库/缓存用来实时取数据;2) hdfs文件上面;

抽象出来的三种推荐方式

图2

图3

图3中,推荐引擎的构建来源于不同的数据源(也就是用户的特征有很多种类,例如统计的、行为的、主题的)+不同的推荐模型算法,推荐引擎的架构可以试多样化的(实时推荐的+离线推荐的),然后融合推荐结果(人工规则+模型结果),融合方式多样的,有线性加权的或者切换式的等

图4

图4中,A模块负责用户各类型特征的收集,B模块的相关表是根据图3中的推荐引擎来生成的,B模块的输出推荐结果用来C模块的输入,中间经过过滤模块(用户已经产生行为的物品,非候选物品,业务方提供的物品黑名单等),排名模块也根据预设定的推荐目标来制定,最后推荐解释的生成(这是可能是最容易忽视,但很关键的一环,微信的好友推荐游戏,这一解释已经胜过后台的算法作用了)

HULU的推荐系统

总结:这个也就跟图3有点类似了,葫芦的推荐系统,至少在他blog中写的比较简单。更多的是对推荐系统在线部分的一种描述,离线部分我猜想也是通过分布式计算或者不同的计算方式将算法产生的数据存储进入一种介质中,供推荐系统在线部分调用。系统的整个流程是这样的,首先获取用户的行为,包括(watch、subscribe、vote),这样行为会到后台获取show-show对应的推荐数据。同时这些行为也会产生对应的topic,系统也会根据topic到后台获取topic-show对应的推荐数据。两种数据进行混合,然后经过fliter、explanation、ranking这一系列过程,最后生成用户看到的推荐数据。

     淘宝的推荐系统(详细跟简单版)

总结:淘宝的推荐系统,描述了推荐引擎搭建的整体架构,包括离线的分布式计算和存储、监控、数据统计和分析、实验平台等。给我们搭建推荐引擎提供了很好的建议。整体流程大致这样。通过后台的分布式计算,将算法产生的算法结果数据存储进入一种介质中,首推hbase。然后,通过一种叫做云梯的机制将算法结果推入中间层介质中,供推荐系统在线部分调用。在线部分提供引擎和实验分流,用户的行为将存储进入hadoop中,数据统计分析平台由hive来搭建,主要用来分析和统计hadoop中的用户行为log。这张图不仅讲了,推荐系统的架构流程,也讲了跟这个平台有关系的人,是怎么介入的,我觉得提供的信息可很好的参考。

    Netflix的推荐系统

总结:netflix的推荐系统,描述了推荐引擎搭建的整体架构,采用了三种计算方式的结合。整体流程:用户通过UI产生事件跟行为,然后分发给离线(我理解的是按天存储)、近线存储(不提供历史,存储当天用户实时行为。不知道理解是否有误),离线的计算利用离线的数据建好模型供实时调用,近线的计算利用用户的实时行为计算得出规则供实时调用,最后在线的计算通过前两种方式来得到最终的推荐结果,关键问题,就是如何以无缝方式结合、管理在线和离线计算过程,当然找到这些要求之间恰当的平衡并不容易,需要深思熟虑的需求分析,细心的技术选择,战略性的推荐算法分解,最终才能为客户达成最佳的结果。

优酷的推荐系统

备注:上图来至easyhadoop举办的技术沙龙中优酷数据挖掘工程师的演讲,有关详细信息请移步 http://virtual.51cto.com/exp/Hadoop_20130330/index.html#top。作者在演讲中讲的一些"干货"跟推荐议题是很有价值的,下图简单描述。

模型前数据准备(理解数据源,用户,物品)

模型策略

其他考虑的场景

参考资料:推荐系统实践,互联网资料

推荐系统的架构

时间: 2024-10-06 12:27:25

推荐系统的架构的相关文章

推荐系统小结

推荐系统(RecSys)作为电子商务中一个非常火的应用.主要是为了帮助用户发现可能感兴趣的东西,这样的就叫做个性化推荐系统:而广告商还能够利用结果将内容投放给可能会对它们感兴趣的用户,这就成了个性化广告.比較著名的推荐系统有亚马逊,被RWW(读写网)称为"推荐系统之王",你从亚马逊买了一本书以后.会发现它会常常向你的邮箱发一些相关的书籍,这个有时比較恼人,呵呵:此外还要电影和视频站点,像YouTube和Hulu等会美国比較著名的视频站点:个性化音乐网络电台.像国际的Pandora和La

Spark机器学习实战 (十二) - 推荐系统实战

0 相关源码 将结合前述知识进行综合实战,以达到所学即所用.在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统. 1 推荐系统简介 1.1 什么是推荐系统 1.2 推荐系统的作用 1.2.1 帮助顾客快速定位需求,节省时间 1.2.2 大幅度提高销售量 1.3 推荐系统的技术思想 1.3.1 推荐系统是一种机器学习的工程应用 1.3.2 推荐系统基于知识发现原理 1.4 推荐系统的工业化实现 Apache Spa

HDFS(Hadoop Distributed File System)的组件架构概述

1.hadoop1.x和hadoop2.x区别 2.组件介绍 HDFS架构概述1)NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等.2)DataNode(dn): 在本地文件系统存储文件块数据,以及块数据的校验和.3)SecondaryNameNode(2nn): 用来监控HDFS状态的辅助后台程序,每隔一段时间获取DHFS元数据的快照. YARN架构概述 1)ResourceManag

当当网Docker应用实践

随着Docker成为当下热门的容器技术,各大公司以及中小团队都开始选择Docker来进行应用部署,从原有部署方式迁移到Docker方式过程中难免会遇到各种问题,本次分享主要介绍当当网个性化推荐组应用Docker进行应用部署以及小团队试水Docker的的若干经验,分享主要包括以下几点: 现有应用Docker化的过程Docker化的过程 结合Jenkins的自动化构建 使用Mesos和Marathon的自动化部署与集群管理 大家好,非常高兴能有这样的机会跟大家交流. 我是当当网个性化推荐组项目负责人

大数据处理的规模化与实时化演进

中国大数据技术大会首日全体大会上,腾讯数据平台部助理总经理蒋杰发表了题为<大数据处理的规模化与实时化演进 >的演讲.他分享了大数据技术在腾讯的实践,其中包括基于Hadoop的平台TDW.实时数据收集系统TDBank以及基于Storm的流处理系统TRC.同时,蒋杰还透露,腾讯将在12月开源内部的Hadoop平台TDW. 以下为演讲实录: 蒋杰:谢谢张老师和CCF.我今天给大家做的报告是大数据平台规模化和实时化.这是腾讯一年内所做的总结给大家汇报一下.其实分为三部分内容: 腾讯里面大数据应用分为哪

搜索引擎中输入检索词到返回十条结果,发生了哪些事情

移动互联网时代搜索引擎依然是重要流量来源以及流量分发渠道,虽然比PC互联网时代权重有所降低. 各大电商淘宝.京东80-90%交易额也是由用户app内搜索.网站内搜索产生,个性化推荐系统本身也和搜索 引擎无论技术还是产品方方面面都与搜索引擎有着关联,我们每天也都和搜索引擎打着交道,搜索知识. 搜索问题.搜索新闻.了解世界,搜索引擎价值巨大,作为一个技术人应该了解他并不断深入了解他. 百度第三代搜索引擎架构 当我们使用搜索引擎检索信息时,输入想要查找检索词,点击回车,搜索引擎在1s左右时间返回十篇

移动互联网+智能运营体系搭建=你家有金矿啊!

摘要: 每个企业都有许多的数据,但能否将数据转化成商业价值,是企业非常关心的问题.阿里巴巴曾自嘲是一家坐在数据的金矿上啃着馒头的企业,前几年集团积累了很多的数据,但这些数据并没有真正应用起来,受限于几个原因,比如大数据的技术框架还不成熟,运营团队对数据应用的意识还不是很强,但今天,数据在阿里巴巴的应用范围已经越来越广泛. 每个企业都有许多的数据,但能否将数据转化成商业价值,是企业非常关心的问题.阿里巴巴曾自嘲是一家坐在数据的金矿上啃着馒头的企业,前几年集团积累了很多的数据,但这些数据并没有真正应

为什么很多Java程序员都转行做大数据了?

如今大数据发展的越来越成熟.各大企业纷纷成立大数据部门.尤其BAT等一线互联网公司每天处理的数据量都是TB级别.大数据部门已成为这些企业的核心部门,数据已成为企业最核心的资产. 但是大数据人才缺口巨大,据统计目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万. 因此大数据工程师薪资也比其他职位高出不少.以北京为例.1-3年的大数据工程师平均年薪30-50万,3-5年经验的大数据工程师年薪在50-80万.想学习的同学欢迎加入大数据学习扣群:458345782,有大量干货(零

大数据技术之Hadoop入门

? 第1章 大数据概论 1.1 大数据概念 大数据概念如图2-1 所示. 图2-1 大数据概念 1.2 大数据特点(4V) 大数据特点如图2-2,2-3,2-4,2-5所示 图2-2 大数据特点之大量 图2-3 大数据特点之高速 图2-4 大数据特点之多样 图2-5 大数据特点之低价值密度 1.3 大数据应用场景 大数据应用场景如图2-6,2-7,2-8,2-9,2-10,2-11所示 图2-6 大数据应用场景之物流仓储 图2-7 大数据应用场景之零售 图2-8 大数据应用场景之旅游 图2-9