基于MaxCompute打造轻盈的人人车移动端数据平台

以下内容根据演讲视频以及PPT整理而成。

一.人人车数据平台

快速搭建,一年时间完成6大平台的搭建

基于阿里云平台上成熟的技术,人人车企业只用了一年时间便实现了6大数据平台的设计与搭建,其中包括:Jarvis-BI报表平台、Metadata-元数据管理平台、Streaming-实时计算平台、Athena-数据工单平台、Cateye-监控平台与AD-HOC-自助取数平台。

上述数据平台的最底层均由阿里云的相关技术支撑运行,阿里云为平台的搭建提供了两种不同技术的支持,在储存计算技术方面,阿里云提供了 RDS云数据库、MaxCompute大数据计算平台、OSS对象储存等储蓄技术。在云通信技术方面,阿里云同样提供了SLB、DTS、DataX、CDN等云通道技术。

企业遵循阿里云 “One Data,One Server,One Meta”理念进行平台的设计与实现。“One Data”这里表示统一的数据源,企业将所有数据出口汇总到MaxCompute并在Hadoop集群上搭建统一的数据源。围绕统一的数据源,企业搭建了许多相关业务的搜索引擎,包括:Spark、Clickhouse、Presto、Druid.io等。在搜索引擎的基础上,平台基于“One Server”的设计思想封装了统一的DataServer为这些搜索引擎提供上层数据服务。“One Meta”代表统一的元数据,元数据相当于数据流中的骨架,企业设计并实现的元数据管理平台很好地完成了对元数据的管理任务,通过元数据企业可以更好的管理数据权限及各种数据指标。人人车企业基于阿里云的技术与思想打造的数据平台轻盈可靠,为企业带来了很高的效益。

如下图所示,在阿里云技术的基础上,人人车数据平台的数据流实现分为以下4层:

查询引擎:包括Presto、ClickHouse、Druid.io等查询引擎。
通道存储:包括Hadoop、Kafka等数据储存工具。
计算层:使用了阿里云的MaxCompute服务。
数据源:企业的数据源。

二.数据仓库建模

基于数据驱动理念及市场的需求,人人车企业基于阿里云成熟的MaxCompute技术尝试设计搭建了企业自己的数据仓库。在阿里云便捷的方案与稳定技术的支持下,企业的数据仓库搭建顺利成功,目前已开始为公司贡献数据上的效益。

  1. 数据仓库可以解决什么问题?

建立数据仓库可以为整个工程提供一个良好的数据体系,解决异构数据源工程开发中的口径版本不一、效率低下、缺乏可信度等问题。数据平台的开发是由良好的顶层设计来决定底层建筑的过程,优秀的数据平台设计方案在实现过程中会为开发团队节省大量的人力与时间。搭建一个标准的数据仓库,即是完成数据平台顶层设计的第一步。

2.数据仓库的标准

企业业务上常用的数据仓库为三段式模型,目前最为流行的是基于主题内容的Inmon模型与基于维度的Kimball模型。这两种建模的目标都是建立一个更高效、稳定、灵活的数据仓库模型。企业可以从耦合度、性能与成本、效率与质量这三大维度选择合适自己业务的数据仓库模型。在数据仓库搭建的实施过程中,人人车平台选择在阿里云的MaxCompute服务基础上进行企业数据仓库的搭建。如下图所示,通过阿里云MaxCompute服务搭建的数据仓库从以下五大方面为人人车的数据仓库搭建带来了便利:

成本:通过阿里云搭建数据仓库可以为企业节省30%的服务成本及大量的人力成本,使企业研发团队可以更加专注于业务的研发。
时间:通过阿里云搭建数据仓库可以大大节省企业的研发时间
性能:阿里云的MaxCompute服务为企业提供了完善的数据处理方案、大规模的计算储存、细粒度的节点依赖管理等功能,大大优化了企业数据平台的性能。
稳定性:MaxCompute服务安全可靠,每天稳定在8点前产出企业需要的数据。
用户个性化:提供了满足用户需求的诸多功能。

3.平台数据仓库结构

如下图所示,人人车平台数据仓库的结构分为以下几层:

业务数据层:最底层是业务数据层,这里通过MySQL数据库及数据库日志存放整个数据仓库的业务运行数据。
操作数据层:业务数据产生后会同步进入操作数据层的ODS中,平台在这里要进行数据的对接,通过增量抽取等方式使同步到ODS的原始数据与业务数据保持一致。
明细数据层:在明细数据层中,平台会将原始数据进行过滤,并从中抽取一些比较重要的数据。
维表层:通过维表层的使用,平台可以有效下降数据的体积并在处理数据时更加灵活方便。维表层将贯穿整个数据仓库的生命周期。
汇总数据层:在汇总层中,业务逻辑会对数据进行轻度的汇总,通过汇总收缩明细数据的体积,以此方便数据向最上层的数据集市进行汇总。
数据集市:数据集市中包含了大量的主题表,主题表主要功能是面向分析及统一指标。主题表可以帮助平台分析并汇总企业每条业务线上的数据,可以有效防止由于数据汇总而导致的数据量的爆炸式增长。

4.基于MaxCompute搭建的数据仓库效果

如下图所示,是人人车平台基于阿里云MaxCompute搭建的数据仓库的运行数据。通过阿里云的MaxCompute,人人车平台实现了快速高效搭建数据仓库的愿景。平台所搭建的数据仓库安全可靠,运行平稳,并且在每日数据峰值阶段的表现优异。同时,通过使用阿里云的服务搭建数据仓库,企业节省了很多不必要的开销。

5.数据同步问题

在数据仓库的实现过程中,数据同步是一大难题。阿里云提供了一些便捷的标准接口帮助企业更方便地将数据同步到MySQL以外的设备上。企业可以对这些标准化的接口进行个性化的定义,以此方便自身业务的开发与编写。

6.数据仓库最佳实践

在数据仓库的设计与实践过程中,人人车平台总结了以下一些经验:

数据产品非常重要:在企业的业务发展中,数据需求与产品需求同样重要。数据可以为企业带来机械化的数据驱动,帮助企业更好的掌握市场的流量、流量转化情况及数据峰值等重要信息。在设计产品时保证必要的数据预估,会使产品更加符合市场预期,更加受到市场的欢迎。
数据指标要克制:数据指标并不是越多越有价值,企业需要聚焦最有价值的数据报表,通过关联相关项得出最有价值的分析结果。
业务表:数据库中业务表切忌随意删除,开发团队可以通过状态位标识的方法完成相关业务逻辑。

三.基于阿里云技术的BI数据报表平台

人人车企业以阿里云技术为基础设计并实践的另一大成果是BI数据报表平台,通过BI数据报表平台,企业完成了对市场数据的轻松掌控,并大大提高了自身决策的准确度。

  1. 方案的选择--论POC以及TPC的重要性

在BI报表平台实现的方案中,人人车采用了POC模式与TPC模型来实现。
POC模式意为产品原型验证模式,开发者在产品原型验证模式下需要去了解客户的基础需求,通过理解用户的需求为用户搭建一个业务原型场景。
TPC-DS模型是设计数据库常常会用到的模型,其中包括:关系模型、星型模型及雪花模型,其优秀的工作负载能力可以为系统带来很高的稳定性。

2.ClickHouse数据管理系统

ClickHouse数据库管理系统开发自俄罗斯,系统拥有如下优点:

简单可靠
支持高并发
支持增量、全量同步
支持亿级别量级查询
延时短

3.BI数据报表平台架构

如下图所示为BI数据报表平台的架构示意图,平台的架构可以分为以下几大部分:

数据源:包括阿里云HDFS及MaxCompute的服务以及企业内部的MySQL数据库与待分析储存的数据。
调度平台:负责调度整个平台的增量与全量同步,包括DataX与KafkaConnect模块。
ClickHouse集群:ClickHouse集群是这个架构的核心,ClickHouse提供分片与副本的模式供用户来进行部署,副本可以大大提高系统的并发性能,使系统的运行更加安全可靠。
API层:在最外层,系统统一生成一致的API供用户的电脑、手机等智能设备进行访问及调用,API层具有鉴权及操作审计功能。

下图为系统使用时的效果图。在编辑图表的过程中,使用者可以按照自己所想自由的拖拽拉动数据图表,实现数据图表的简单化操作。基于大数据统计出的表格会将数据的特点直观地表现给用户,大大方便了用户的使用。

下图所示为BI数据报表平台在移动端的效果图。

4.BI数据报表平台的优势

BI数据报表平台除了其方便操作的特点外,还为使用者带来了以下优势技术:

SQL合成表:对于特殊需求的开发者,BI数据报表平台支持用户通过特殊关联将SQL表格相连接,合成新表。
血缘关系:与合成表格相对应的是表格血缘关系查看的功能,开发者可以通过血缘关系的查看搜索表格的相关依赖及被使用情况。
AD-HOC:为开发者提供AD-HOC技术支持,方便数据平台的开发使用。

在上述架构与优势技术的支持下,BI数据报表平台具备下列特点:

离线、实时特性:BI数据报表平台支持用户随时的离线与实时数据查询,并且具备低延时、高并发的特点。
易用性:BI数据报表平台简单易上手,小白级的拖拉拽操作方式,支持用户高效快捷办公。
细腻的权限管控:数据的权限是数据使用中十分重要的一个问题,数据权限不清晰往往会造成很严重的后果。BI数据报表平台的数据权限可以细腻到行级别与字段值域级别,细腻的权限管控让不同的使用者看到不同的数据,增加了项目的安全可靠性。
ETL:支持关联表查询,合表生成原生SQL支持等。
数据一致性:严格进行增量全量的同步,使存入的数据可信可靠。
顶级可视化效果:平台提供可以突出数据特点的可视化效果,让使用者一目了然,迅速发现数据特点,提高工作效率。

5.BI数据报表平台搭建时的经验

在BI数据平台的设计与搭建中,人人车平台也摸索总结了很多经验:

先做好POC,做好benchmark:先确定好用户的需求,进行产品原型验证,再进行相关的产品开发。
权限是魔鬼,平台一定要压制住:数据权限是数据平台开发的重中之重,在开发时一定要重点设计关注数据权限的问题。
6.BI数据报表平台的数据驱动

BI平台使用了数据驱动的运营方式,仅对用户最感兴趣的几个指标项进行考核,将考核得到的结果与业绩直接挂钩,实现用户在掌上查看相关数据,大大方便用户的工作与生活。

原文地址:https://blog.51cto.com/14031893/2356215

时间: 2024-07-31 11:43:38

基于MaxCompute打造轻盈的人人车移动端数据平台的相关文章

1年时间业务量疯长40倍,谈人人车的平台架构演进之路

人人车业务平台从最初典型的LNMP单机单服务部署架构,发展到如今分布式服务化架构,五百多台虚拟机部署,一路走来,踩过不少坑,也遇到过不少挑战,特别是对于基于云服务进行业务开发的场景,以及从零开始服务化与SOA之路更是颇有心得,希望通过此次分享全面回顾人人车业务平台技术架构发展之路,重点分享如下内容: 创业初期技术架构选型思考,那些年我们趟过的坑,云服务与三方服务使用心得: O2O型互联网创业公司,重线下团队技术型公司,技术架构优化之路,分享我们人人车是如何做服务拆分.如何做服务化.如何做SOA.

开源倾情奉献:基于.NET打造IP智能网络视频监控系统

转载自 http://www.cnblogs.com/gaochundong/p/opensource_ip_video_surveillance_system_part_1_introduction.html 开源倾情奉献系列链接 开源倾情奉献:基于.NET打造IP智能网络视频监控系统(一)开放源代码 开源倾情奉献:基于.NET打造IP智能网络视频监控系统(二)基础类库介绍 开源倾情奉献:基于.NET打造IP智能网络视频监控系统(三)命令行工具集 开源倾情奉献:基于.NET打造IP智能网络视频

打通数据孤岛,基于MaxCompute实现产销协同的智慧运营

摘要: 每一个公司转型的背后 都有着不为人知的秘密 今天,让我们一起探秘 内蒙古蒙牛乳业(集团)股份有限公司是中国发展速度最快的乳品企业之一,2017年实现收入601.56亿元,位列全球乳业第10位,与2016年同比收入增长12%. 每一个公司转型的背后 都有着不为人知的秘密 今天,让我们一起探秘 内蒙古蒙牛乳业(集团)股份有限公司是中国发展速度最快的乳品企业之一,2017年实现收入601.56亿元,位列全球乳业第10位,与2016年同比收入增长12%.随着业务的迅速发展,如何改善内部运营效率.

RaspberryPI基于XBain打造客厅媒体中心

作者:半点闲 时间:2014年9月11日星期四 博客:blog.csdn.net/cg_i 邮箱:[email protected] 背景知识:RaspberryPI(树莓派)XBian 资源下载:http://pan.baidu.com/s/1dD3q5Tv(文中提到的所有软件) 必备条件:树莓派B型 关键字:树莓派 XBian HDPfans 有关的废话 昨晚和基友冒雨走了五公里看了一场电影.整部片子依然遵照好莱坞商业片模式,除了一通豪车.飞机.坦克被打成一堆废铁,就是从头至尾不停的杀人.杀

基于Java NIO的多人在线聊天工具源码实现(登录,单聊,群聊)

近来在学习Java NIO网络开发知识,写了一个基于Java NIO的多人在线聊天工具练练手.源码公开在Coding上: https://coding.net/u/hust_wsh/p/MyChat/git ,开发环境是Ubuntu14.04+Eclipse Mars+JDK1.8. 要想编写一个基于Java NIO的多人在线聊天工具,我总结需要以下几方面的地址:客户端服务器模型,Java NIO中的Selector,SocketChannel,ByteBuffer,Collections以及序

从人人车融资2亿美元看,二手车平台还能刮起什么风?

近日,二手车电商平台人人车宣布完成新一轮2亿美元融资,投资方为滴滴出行.再加上今年6月和8月,瓜子二手车和优信二手车相继宣布获得4亿美元和5亿美元融资,二手车电商行业看起来是绝对的春风得意.但在天价融资背后,我们也应该当看到,这个行业目前还存在这诸多问题. 如商业模式不统一,不同平台都极力发展自家模式:市场占有率还比较低,尚无法和传统线下二手车交易抗衡:烧钱依然是主流,难以盈利--在天价融资的阶段度过之后,二手车电商平台应该刮起更多"风",真正展现自身革新.颠覆二手车市场的初心. 强化

10款基于jQuery打造的大屏带导航焦点图

1.纯CSS3实现3D效果iPhone 6动画 iPhone 6刚发布不久,今天我们就用纯CSS3来把iPhone 6的外观简单地绘制出来,记得是用纯CSS3实现的哦,没有用一张图片.由于CSS3特性的运用,整个iPhone 6手机边框带有阴影,很有立体3D的视觉效果. 在线演示 源码下载 2.纯CSS3天气动画图标 这是一款基于纯CSS3的天气动画图标,利用CSS3特性,我们在这里绘制了7个关于天气的图标,并且每一个图标都有一套代表当前天气的动画特效,比如下雨天气,就会有下雨的动画,下雪也是如

基于Golang打造的开源WAF网关

基于Golang打造的开源WAF网关 Github地址 https://github.com/Janusec/janusec 产品介绍 https://mp.weixin.qq.com/s/OOA9LwPE0ulBqkIFkXax-Q 构建可扩展的应用安全基础设施 Janusec应用网关(Janusec Application Gateway),提供WAF (Web Application Firewall, Web应用防火墙).统一Web化管理入口.证书私钥保护,Web路由以及可扩展的负载均衡

基于MaxCompute InformationSchema进行血缘关系分析

一.需求场景分析 在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的血缘关系,从而分析出数据的上下游依赖关系. 本文将介绍如何去根据MaxCompute InformationSchema中作业ID的输入输出表来分析出某张表的血缘关系. 二.方案设计思路 MaxCompute Information_Schema提供了访问表的作业明细数据tasks_history,该表