如何打造100亿SDK累计覆盖量的大数据系统

作为推送行业领导者,截止目前个推SDK累计安装覆盖量达100亿(含海外),接入应用超过43万,独立终端覆盖超过10亿 (含海外)。个推系统每天会产生大量的日志和数据,面临许多数据处理方面的挑战。

首先数据存储方面,个推每天产生10TB以上的数据,并且累积数据已在PB级别。其次,作为推送技术服务商,个推有很多来自客户和公司各部门的数据分析和统计需求,例如:消息推送和数据报表。虽然部分数据分析工作是离线模式,但开源数据处理系统稳定性并不很高,保障数据分析服务的高可用性也是一个挑战。另外,推送业务并不是单纯的消息下发,它需帮助客户通过数据分析把合适的内容在合适的场景送达给合适的人,这要求系统支持数据挖掘,并保证数据实时性。最后,个推要求快速响应数据分析需求。因此,个推大数据系统面临着数据存储、日志传输、日志分析处理、大量任务调度和管理、数据分析处理服务高可用、海量多维度报表和快速响应分析和取数需求等方面的挑战。

大数据系统演进之路

面临诸多挑战,个推大数据系统在逐步发展中不断完善。其发展可分为三个阶段。一是统计报表,即传统意义的BI;二是大数据系统的基础建设阶段;三是工具、服务和产品化。

个推大数据系统演进第一阶段:统计报表计算

早期由于数据处理无太复杂的需求,个推选择几台高性能的机器,把所有数据分别放在这些机器上计算。只需在机器上多进程运行PHP或Shell脚本即可完成处理和统计。数据处理更多关注客户今天推送多少条消息,某个推送任务有多少回执等,执行相对较简单的报表。

此阶段个推大数据系统的特点是,只需运维定时脚本传输到指定中间节点;用户虽然有亿级别但日志种类较单一;只需使用PHP、Shell脚本来运行和数据只需短期保存(结果集长期保存、中间数据和原始数据保存很短时间)。

个推大数据系统演进第二阶段:大数据基础建设,离线批处理系统

2014年个推推出智能推送解决方案。用户体量大的明星App接入,系统覆盖用户数爆增。且客户接入个推系统后,提出了很多新的需求如:报表统计维度更丰富,它要求在数据量翻倍的情况下进行更复杂的计算,计算压力增大。其次,智能推送本质是数据深度挖掘,数据保存周期越长,覆盖维度越多越好。

这样的情况下,个推引进Hadoop生态体系,用HDFS基本解决存储的问题,使用Hive做数据仓库和离线分析,并且使用Mahout做机器学习。个推完成了由单机或多机模式向集群方向的转变。整个运转流程和原来类似,差别在于将日志传输到中转节点之后,使用hdfs命令put数据到hdfs,并添加hive表分区,然后对日志做进一步的处理,导入到数据仓储里去。最后个推对数据仓库中数据进行挖掘,给用户打标签,入库到HBase和线上ES等。这是离线批处理系统的基本建设。

个推大数据系统演进第二阶段:大数据基础建设,实时处理系统

随着业务不断发展,需求也相应增加。如很多统计分析任务提出了要求在T+0的时间内满足,或者客户上午推送的消息,下午要求给到反映推送效果的数据报表,而不能等到T+1的时间,这些需求都对数据处理实时性提出了更高要求。而且很多客户会提出要检索一些数据,或查看某种标签相关数据,这类取数需要快速响应。于是个推对原有的架构进行了一些调整,引入了一个主要包含离线处理、实时处理和数据服务(包含检索)的架构模式。

从上方看,原有的数据存到HDFS,使用Spark,MR等进行离线批处理。引入Kafka来解决日志收集问题,用Flume收集各个业务节点的日志,并写入到Kafka集群,再依照业务的分级进行小时级别和秒级别处理。最终个推会落地一份数据,将它同步给业务线的DB或ES中使用。

基础建设阶段个推完成几项工作:采用Lambda架构(Batch Layer、Speed Layer、ServingLayer);引入Hadoop(Hdfs、Hive/MR、Hbase、Mahout等);采用ES、SolrCloud+ HBase方案 实现多维度检索;引入Flume 、Kafka、Camus和优化改造日志传输和引入和优化国产开源的Redis集群方案-Codis 。

个推大数据系统演进第三阶段:工具化+服务化+产品化

基础建设过程中,个推发现虽有了整体框架,但依然不能比较便捷地响应业务方的需求。所以个推选择提供工具给业务方,并增加一个服务代理层,也就是上图红色部分,把批处理任务等抽象成任务模板,配置到代理层,最终提给业务方调用,他们只要做简单的二次开发,就可以使用个推集群的计算服务,提高业务开发速度。

这个阶段,个推在架构上主要完成了以下工作增加Job调度管理:引入Azkaban和进行改造(变量共享、多集群支持等);增加服务代理层:引入DataService和Job Proxy(开放给更多产品线使用并解耦);增加应用层:基于服务代理层研发相应的工具和取数产品。

个推大数据系统演进的经验与总结

第一,探索数据和理解数据是开发前必备工作。数据处理之前需要探索有哪些脏数据,这些脏数据的分布,以及无效数据和缺省情况的发现等。第二,数据存储方案向分析和计算需要靠拢。可以考虑使用类似Carbondata等带有索引的文件格式。第三,数据标准化是提高后续处理首要手段。绝大部分数据需要标准化后供给后续使用(基本清洗、统一内部ID、增加必备属性),如对实时性数据,应先做标准化处理后,再发布到Kafka里,最后供所有其他实时系统做处理,减少常规清洗和转化处理在多个业务中重复做,并且统一ID,便于和数据打通。第四,工具化、服务化、产品化提高整体效率。在开发层面可以将MR、Spark进行API封装并且提供足够的工具包。第五,大数据系统全链路监控很重要。批处理监控主要包括:日常任务运行时间监控、是否出现倾斜、结果集每日曲线、异常数据曲线,GC监控;流式处理监控包括:原数据波动监控、消费速率监控报警、计算节点delay监控等。

时间: 2024-10-30 11:33:13

如何打造100亿SDK累计覆盖量的大数据系统的相关文章

扛住100亿次请求——如何做一个“有把握”的春晚红包系统?(转载)

转载:原文链接 扛住100亿次请求——如何做一个“有把握”的春晚红包系统? 羊年春晚摇一摇活动已经落下帷幕,现在回过头来看看这一全民参与的有趣的活动背后,有着怎样的后台系统?这个系统又是如何被设计与实现出来的? 1.   春晚摇一摇活动形式 在了解这个系统之前,先看看羊年春晚有哪些活动形式?春晚摇一摇复用了摇一摇入口,但提供了全新的界面和交互内容. 在羊年春晚摇一摇界面里,用户摇动手机后,可以看到明星拜年.全家福.好友贺卡等精彩纷呈的活动页:也会有温馨的“休息一下”,或让很多误以为中奖的“挂服务

刘强东100亿投资湘潭的背后不只是商业

这两天被刘强东湘潭寻亲投资100亿的消息刷屏了吗?东哥100亿大手笔,千里寻亲不忘本,感恩回报社会.这一波操作溜!一.刘强东两轮签约,100亿投资湘潭据媒体报道,刘强东此次在湘潭共投资100个亿,进行了两轮签约.第一轮签约的是<湘潭市人民政府京东集团战略合作框架协议>,双方约定共同推动湘潭智慧物流配送体系建设.京东将在湘潭各区县建立城乡末端配送网络,加大新能源配送车辆.智能配送柜.无人机.无人车等物流设备设施投入,助力湘潭建立现代电子商务智慧物流体系:通过建设前置中转仓储等方式,与本地商家对接

云谷数据中心项目落户海门开发区,总投资100亿元

来源:南通市人民政府 12 月 30 日下午,海门云谷数据中心项目举行签约仪式.海门市重特大项目建设实现再突破,总投资 100 亿元的海门云谷数据中心项目落户海门开发区. 云谷数据中心项目由北京伊信信息技术服务有限公司和海门市拓鸿实业有限公司共同投资建设,由中联云港数据科技股份有限公司负责运行.项目总投资约 100 亿元,其中设备投入不低于 30 亿元,建筑面积不少于 13 万平方米,致力于打造国家大数据综合试验区示范基地. 近年来,海门信息技术产业总产值年均增幅超过 20%,在光纤通信线缆.电

100亿个数字找出最大的10个

1.首先一点,对于海量数据处理,思路基本上是确定的,必须分块处理,然后再合并起来. 2.对于每一块必须找出10个最大的数,因为第一块中10个最大数中的最小的,可能比第二块中10最大数中的最大的还要大. 3.分块处理,再合并.也就是Google MapReduce 的基本思想.Google有很多的服务器,每个服务器又有很多的CPU,因此,100亿个数分成100块,每个服务器处理一块,1亿个数分成100块,每个CPU处理一块.然后再从下往上合并.注意:分块的时候,要保证块与块之间独立,没有依赖关系,

100亿小数据实时计算平台

2017年6月,开始数据分析的职业生涯,作为架构师,建立起一套基于.Net/.Net Core的小数据实时处理计算平台,这里记录学习过程中的点点滴滴! 数据分析的核心,可以理解为:Select xxx From table Where yyy Group By zzz 小数据计算平台的定位: 数据量在1000万行到100亿行之间,传统关系型数据库算起来吃力,且类似项目不是特别多,Hadoop搭起来难以收回成本 资源投入有限,基于传统项目之上的轻量级数据分析,一般只能有1~2台服务器,Hadoop

100亿数据平滑数据迁移,不影响服务

架构师之路-100亿数据平滑数据迁移,不影响服务 原文地址:https://www.cnblogs.com/simplepure/p/10898427.html

读完这100篇论文,你也是大数据高手!

引言 PayPal高级工程总监Anil Madan写了这篇大数据的文章,一共有100篇大数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手.当然主要是了解大数据技术的整个框架,对于我们学习大数据有莫大好处. 开 源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的 推动作用.另一方面,开源也给大数据技术构建了一个异常复杂的生态系统.每一天,都有一大堆“新”框架.“新”类库或“新”

读完这100篇论文 就能成大数据高手(附论文下载)

100 open source Big Data architecture papers for data professionals. 读完这100篇论文 就能成大数据高手 作者 白宁超 2016年4月16日13:38:49 摘要:本文基于PayPal高级工程总监Anil Madan写的大数据文章,其中涵盖100篇大数据的论文,涵盖大数据技术栈(数据存储层.键值存储.面向列的存储.流式.交互式.实时系统.工具.库等),全部读懂你将会是大数据的顶级高手.作者通过引用Anil Madan原文和CS

股价飙升20%市值增长100亿,《纸牌屋》之父Netflix凭什么比他的竞争者要强12倍?

[阅读原文] 作者:楠沨 10月17日,全球知名网络影视平台Netflix公布第三季度财报,新增用户人数为357万人,比预期高出50%,营收22.9亿,同比增长31.7%,净利润为5150万美元,同比上涨75%.财报发出后,Netflix股价飙升,涨幅超过20%,整个公司市值增加了将近100个亿! Netflix起步于美国一家在线影片租赁提供商,以免费邮寄服务为用户提供租赁DVD发家.随着互联网的兴起,影像业逐渐向网络媒体转型,Netflix搭上了"互联网+"的顺风车.Netflix从