苏宁人工智能研发中心智能创意平台架构成长之路(二)--大数据架构篇

苏宁人工智能研发中心智能创意平台架构成长之路(一)--长篇开篇 https://www.cnblogs.com/laoqing/p/11326132.html   我们接着第一篇继续。

(这是第二篇大数据架构篇,成长之路序列会包含多篇,笔者作为这个平台的架构兼技术经理,充分讲述其中的迭代心酸之路以及中间遇到的问题和解决方案)

声明:文章不涉及公司内部技术资料的外泄,涉及的图片都是重画的简易架构图,主要通过架构的演进,讲述分享技术的迭代之路和过程。

在第二轮迭代完成后,第三轮迭代中,我们就开始做平台的数据分析了,这里我们以工作台数据分析为例,讲解平台如何采用大数据的方式来进行数据分析。

工作台中,需要做数据分析,比如平台合成出来的banner图被用户的点击次数,banner图合成出来后,被用户下载的数据,工作台中的PV/UV情况等。

在此轮设计中,我们直接用的大数据解决方案,并没有在一开始使用关系型数据来做这样的数据分析统计,架构方案如下,我们选用了Druid来做数据存储,以OLAP的方式来做数据分析,Druid.io(以下简称Druid)是面向海量数据的、用于实时查询与分析的OLAP存储系统。Druid的四大关键特性总结如下:

1)、亚秒级的OLAP查询分析,Druid采用了列式存储、倒排索引、位图索引等关键技术,能够在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作。

2)、实时流数据分析,区别于传统分析型数据库采用的批量导入数据进行分析的方式,Druid提供了实时流数据分析,采用LSM(Long structure merge)-Tree结构使Druid拥有极高的实时写入性能;同时实现了实时数据在亚秒级内的可视化。

3)、丰富的数据分析功能。针对不同用户群体,Druid提供了友好的可视化界面、类SQL查询语言以及REST 查询接口

4)、高可用性与高可拓展性。Druid采用分布式、SN(share-nothing)架构,管理类节点可配置HA,工作节点功能单一,不相互依赖,这些特性都使得Druid集群在管理、容错、灾备、扩容等方面变得十分简单。

关于druid的介绍,可以参考https://www.jianshu.com/p/0a614455a964 这篇文章。

1、 在页面中,我们用采集插件做了数据埋点采集,数据采集通过数据采集服务丢入到kafka中。

2、 我们在druid中设计了两张表,数据的粒度精确到分钟时间段,也就是有分钟表和小时表两张。分钟表数据量可能会比较大,所以我们只会保留1个月内的分钟表数据,小时表的数据会长期保存。

3、 在kafka中,我们创建了两个消费组,一个用于小时消费处理,一个用于分钟消费处理。

4、 在平台设计时,每张banner图都有一个唯一的bannerId和url,在数据聚合处理操作时,bannerId 就成了唯一的标志,按照bannerId进行分钟级的聚合处理和小时级的聚合处理。

5、 小时级的聚合处理也可以考虑使用hive,处理的方案如下,由于分钟表的数据会保存1个月,所以1个月内的查询其实都是直接查询分钟表,1个月以外的数据才会查询小时表。所以尽管此种方案可能会存在数据采集延迟的情况,但是也不会延迟1个月之久,所以可以通过定时任务来处理,定时任务可以在第二天处理前一天的数据。

6、 数据报表在查询时,就可以按照1个月以内查询分钟表,1个月以外的查询小时表。

上面讲的工作台中数据分析的场景,另外我们还有接口合成banner图的数据也是需要分析。在第二轮迭代时,接口请求合成的banner图的结果数据我们同时入了hbase和mysql两张表,上文中已经说过入hbase中的数据是供用户做接口合成结果查询的。入mysql中当时是准备用作数据分析的(因为第二轮时,调用量还不够大,所以那个时候还未采用大数据方案),如下图

在第三轮的接口迭代中,我们将架构进行了优化,以适应每天千万级的接口合成调用,不然mysql数据库会成为最终的瓶颈,如下图

我们将入mysql的那份数据改成写到kafka中,然后kafka的数据可以做实时分析,也可以将kafka的数据进入到hive中做离线分析。

未完待续

原文地址:https://www.cnblogs.com/laoqing/p/11327403.html

时间: 2024-10-24 23:31:44

苏宁人工智能研发中心智能创意平台架构成长之路(二)--大数据架构篇的相关文章

湖北大数据平台企业有哪些?政企大数据平台如何选择?

2019年两会,各大代表纷纷发表对互联网大数据的建言,足以显示,大数据对于目前互联网的重要性已经国家对大数据的关注度,接下来,我们就具体聊一下湖北地区大数据平台企业有哪些?政企大数据平台软件如何选择? 2019年大家在聊到大数据,可能对它不在是以前浅显的认识,大家对大数据已经有了一定的认识.在大数据的浪潮中,大数据被认为是数据的大容量.数据类型的多样.数据的处理速度快.数据的应用高价值的有趋势预测的.海量的.高增长率的信息资产.但是又因为大数据可给人类社会带来潜在的无可估量的价值. 政企大数据平

【MDCC 2015】友盟数据平台负责人吴磊:移动大数据平台的架构与实践

转自: http://www.csdn.net/article/2015-10-20/2825962 [MDCC 2015]友盟数据平台负责人吴磊:移动大数据平台的架构与实践 [CSDN现场报道]10月14日-16日,“ 2015移动开发者大会 · 中国” (Mobile Developer Conference China 2015,简称MDCC 2015)在北京新云南皇冠假日酒店隆重举行.本次大会由全球最大中文IT社区CSDN和中国最具关注度的全方位创业平台创新工场联合主办,以“万物互 联,

大数据平台的服务内容以及猛犸大数据平台近期的思考【摘录】

猛犸大数据平台经过去年一年的快速发展,已成为公司内多个产品的大数据开发工具的首选,作为一个当初定位为开发门户的这样一个平台网站,以调度管理为核心,将公司内已有的大数据工具进行了整合,提供了可视化的操作界面.统一的用户权限管理机制.洞悉原油开发流程的用户可以在猛犸上找到很熟悉的感觉,DS接入,MR任务的上传与调度控制,HIVE的查询等等.随着用户不断反馈,猛犸也在不断的进化,越来越多的组件涵盖了进来,交互和流程在不断改善.然而目前这样的框架这就是猛犸的终极形态吗?答案自然是否定的,可以说,眼前的猛

Java游戏服务器微信房卡炸金花平台出租成长之路

Java游戏服务器成长的微信房卡炸金花平台出租QQ1279829431(h5.mostsheng.com)17061863554源码出售平台出租系列,已经很长时间没写了,不是不想写,而是这一年,基本都是在忙别的了,今天特地挤出时间,对我的2016年,做一个不留遗憾的总结. 2016的事件 不知不觉,又到了春节抢票的时候了,这两天除了盼着年终能发点奖金以外,就是盼着能买一张合适的火车票,今年是离家最久的一年,幸运的是,我成都的小房子要结房了,必须要我本人到场,这就能给我一个理由多请一周的假提前回去

物联网架构成长之路(51)-Nacos微服务配置中心、服务注册服务发现

0.前言 之前练习微服务是用Eureka,最近发现BladeX是用的Nacos,发现Nacos还比较简单实用.所以联系一下这个,为物联网V2版本积累经验. 1. 下载.安装.启动 下载Nacos 1 https://github.com/alibaba/nacos/releases 2 https://nacos.io/zh-cn/docs/quick-start.html 解压启动 访问http://127.0.0.1:8848/nacos/index.html 默认帐号密码 nacos/na

大数据平台架构设计探究

本文首发于 vivo互联网技术 微信公众号? 链接:https://mp.weixin.qq.com/s/npRRRDqNUHNjbybliFxOxA 作者:刘延江 近年来,随着IT技术与大数据.机器学习.算法方向的不断发展,越来越多的企业都意识到了数据存在的价值,将数据作为自身宝贵的资产进行管理,利用大数据和机器学习能力去挖掘.识别.利用数据资产.如果缺乏有效的数据整体架构设计或者部分能力缺失,会导致业务层难以直接利用大数据大数据,大数据和业务产生了巨大的鸿沟,这道鸿沟的出现导致企业在使用大数

知名大厂如何搭建大数据平台&架构

今天我们来看一下淘宝.美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图.通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅. 淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司,下图是淘宝早期的 Hadoop 大数据平台,比较典型. 淘宝的大数据平台基本也是分成三个部分,上面是数据源与数据同步:中间是云梯 1,也就是淘宝的 Hadoop 大数据集群:下面是大数据的应用

奇点云数据中台技术汇(一)DataSimba——企业级一站式大数据智能服务平台

在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台——DataSimba,旨在提供数据采集.数据加工.数据治理.数据规范.数据资产.数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台.其主要核心模块包括了数据开发套件.数据治理套件.数据服务引擎.数据智能.数据安全. 1.数据采集 数据采集作为数据中台第一个环节,不仅仅是要“采集”,也要将数据合理

奇点云数据中台技术汇(一) DataSimba——企业级一站式大数据智能服务平台

在这个"数据即资产"的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台--DataSimba,旨在提供数据采集.数据加工.数据治理.数据规范.数据资产.数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台.其主要核心模块包括了数据开发套件.数据治理套件.数据服务引擎.数据智能.数据安全. 1.数据采集 数据采集作为数据中台第一个环节,不仅仅是要"采