【华为云技术分享】大数据容器化,头部玩家尝到了甜头

【摘要】 大数据容器化,大势所趋。头部玩家在进行大数据容器化后,尝到了甜头?

大数据的需求热度,从来都是这个时代的浪尖。然而由于大数据系统的复杂性,一度导致业界大数据已死的各种声音不断。尤其是当MapR被HPE收购,Cloudera公司股票持续跌成狗,使得这种声音进一步放大。其实,大数据的需求一直在,只是传统的大数据实现系统需要考虑重新构建。而容器依靠其自身的标准化,一次构建,随处运行的能力,使得非常适合大数据系统的构建和管理。容器技术当前正是那只火遍全球的当红辣子鸡。

1 华为云BigData Pro大数据解决方案荣获行业年度金奖

12月3日晚,2019年度中国数据与存储峰会年度颁奖典礼上,华为云BigData Pro大数据解决方案荣获“2019年度大数据产品金奖”,再一次展示了华为云在大数据领域的不凡实力。中国数据与存储峰会(DSS)是国内顶级的数据与存储领域技术盛会,其颁发的奖项颇具含金量,在十多年间见证了国内数据存储技术和行业的迅猛发展。此次评选范围涉及私有云大数据,公有云大数据,大数据软件,大数据解决方案等多个领域和维度。本次华为云BigData Pro能一举拿下该金奖,也是实至名归。

2 大数据容器化,大势所趋

目前已经有大量的大数据系统原生支持on Kubernetes。例如Spark官方版本,从2.3开始,就可以无需任何修改直接跑在K8s上。并且,将“更好的在k8s上运行”作为后续版本的重要特性方向。可见k8s对大数据系统的影响多么重要。

3 队友已在加速,你感受到了么

由于容器技术对大数据的这种良好助推作用,目前已经有不少技术嗅觉敏锐的头部玩家,已经开始尝鲜并从中捞取第一桶金。

例如:中国联通的容器化大数据平台实践;京东在使用Kubernetes管理大数据中心;网易基于Kubernetes和Docker构建构建猛犸大数据平台;茄子科技直接将大数据任务大量在生产环境跑在K8S之上;华为云DLI服务容器化,阿里云Flink on K8s等。这些可见的信息都表明这个大方向已经开始加速了。如果你还在艰难的维护着你那庞大的大数据系统,那么你需要停下里看看队友们在干什么。

BigData on K8s 最直接的优势不是性能提升,而是成本的下降。

(1)高利用率的资源调度平台。原来分散在多个集群中的业务,可以合并到统一的集群中,加上长任务短任务混部,及不同业务高峰时间的削峰填谷,来最大化提升集群资源利用率。

(2)统一的技术栈。原有的Yarn调度,节点管理技术,与当下宇宙标准K8s集群调度系统,目标是一样的。但是维护2种技术栈,就得增加研发人力成本,统一的基础设施技术栈,降成本效果明显。

(3)容器自动化能力。标准化是推动 IT 技术持续发展的原动力之一。容器技术本身理念就是一次构建,随处运行,这个与标准化理念是一致的。通过容器技术的标准化实施,并整合容器生态,建立运维系统。可以很好的降低业务系统的运维成本,甚至运维工具本身的构建和使用成本。

4 容器+存算分离,要速度也要成本

当前的大数据计算将计算和存储结合在一起的模式,是分布式架构构建的一种尝试。但是当社区修改HDFS以支持Hadoop 3.0的ErasureCode(纠删码)时,即接受了:不(Wu)再(Fa)支持就近读取的策略。它就代表了一种新趋势:为了适应不同场景,存储空间和算力配比应该是灵活的,可以分别独立的构建。

IDC中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”这一论断与很多企业正在进行的大数据架构变革不谋而合。

同时,伴随着容器技术的成熟及在各行业深入广泛的应用,企业愈发意识到容器技术的优势能很好解决大数据平台当前所遭遇的困境。容器以其更小颗粒度的算力分配、更轻量和快捷的部署方式、灵活的任务调度等特点,可以进一步提升资源利用率,并轻松应对大批量任务并发时的算力扩容。

5 鲲鹏之上,火山助力

华为云自主研发的鲲鹏处理器,具备多核高并发能力可为用户提供包括裸金属服务器,云服务器,容器和Serverless在内的多种粒度的算力,大数据分布式场景性能可有大幅提升。

其中鲲鹏大数据容器,具有极致弹性的调度能力,可以每秒发放1000容器,减少资源弹性等待时间,提升计算效率 。而裸金属容器技术,由于大幅降低虚拟化的开销,可更进一步的提升服务器执行业务的利用率。采用Serverless模式的容器集群,可以很好的支持按需弹性无限扩展,用来执行Spark大数据任务,轻松处理PB级数据作业。

Volcano(火山)项目是华为容器团队开源的一款K8s增强型调度器。初衷为了解决原生K8s不支持Gang Scheduling问题,后来由于AI和大数据等业务领域也开始对K8s有极大的述求,团队成员通过总结具体场景实践经验,打造有价值的技术产品,并贡献社区。

Volcano通过高性能的调度算法,达到更高的容器调度速度。同时,自带的多种算法插件,可以极大的提升集群资源利用率。同时,Volcano也补齐了K8s原生调度器与Yarn调度器间的Gap,例如资源的队列管理(Queue)能力等。为大数据容器解决方案,插上了带火的翅膀。

6 大数据世界,容器来助威

BigData Pro是业界首个鲲鹏大数据解决方案,该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对5G+云+智能时代的全新挑战,实现企业智能化转型升级。

鲲鹏大数据容器解决方案,作为BigData Pro解决方案中重要一员,提供完整的容器化大数据解决方案。

作者:tsjsdbd

原文地址:https://www.cnblogs.com/huaweicloud/p/12525768.html

时间: 2024-10-14 15:03:18

【华为云技术分享】大数据容器化,头部玩家尝到了甜头的相关文章

【华为云技术分享】原来“事务0丢失”是这样做到的

随着数据上云进程的加快,越来越多企业愿意把云下数据库搬到云上,同时对云上数据库的要求也越来越高.尤其是数据的完整可靠,承载着企业业务持续发展的使命,其重要性不言而喻. 而企业在云上使用过程中,事务经常面临丢失的风险,可靠性和完整性得不到满足,很大程度上影响了企业的业务发展.针对这个问题,华为云数据库MySQL高可靠的应用机制能够保证事务不丢失,进而保证企业业务的稳定发展.部分云厂商为了保证事务不丢失,而选择增加一个数据库结点的方式,从而成本也上升了. 华为云数据库MySQL 高可靠特性介绍 华为

【华为云技术分享】基于小熊派STM32芯片的通过MQTT上报JSON数据到华为物联网平台的自动售货机Demo解析

[摘要] STM32的工程在文章末尾,可自行下载. 一.工程配置 1.MCU类型选择STM32L431RC 2.烧录器选择OpenOCD,参数 -f interface/stlink-v2-1.cfg -f target/stm32l4x.cfg 3.输出目录选择 LiteOS_Lab_STM32\targets\STM32L431_BearPi\GCC\appbuild 4.编译器Makefile选择 targets\STM32L431_BearPi\GCC\Makefile 5.平台参数配置

王晶:华为云OCR文字识别服务技术实践、底层框架及应用场景 | AI ProCon 2019【华为云技术分享】

演讲嘉宾 | 王晶(华为云人工智能高级算法工程师王晶) 出品 | AI科技大本营(ID:rgznai100) 近期,由 CSDN 主办的 2019 中国AI 开发者大会(AI ProCon 2019)在北京举办.在计算机视觉技术专题,华为云OCR人工智能高级算法工程师王晶分享了“文字识别服务的技术实践.底层框架及应用场景”的主题演讲. 演讲的第一部分,他分享了文字检测和识别的基础知识以及难点和最新进展.第二部分是华为云文字识别服务关键能力.关键技术,以及落地过程中遇到的“坑”,这对其他人工智能产

揭秘丨7分钟看懂华为云鲲鹏Redis背后的自研技术【华为云技术分享】

2019年5月,华为云发布全球首个基于自研ARM架构的分布式缓存鲲鹏Redis,搭载华为LibOS+华为编译器+安全容器引擎三项黑科技,在保证Redis强劲高性能外,还降低客户30%的使用成本,真正实现了好用不贵的普惠型分布式缓存Redis产品. 本文从技术视角解读华为云鲲鹏Redis是如何通过数据中心基础设施.芯片.硬件.软件等全栈创新优化,达成以上效果. 一.为什么ARM架构适合Redis? 众所周知,Redis是一款风靡全球的高性能.高灵活性.数据结构类型丰富的key-value内存数据库

【我的物联网成长记3】如何开发物联网应用?【华为云技术分享】

[摘要] 物联网应用是设备管理.故障监测.数据分析的重要工具.本文介绍如何基于物联网平台开发应用,包括API.SDK和图形化开发三种方式. -------------------整体方案------------------- 物联网应用是企业和开发者进行设备管理.告警&故障监测.业务监控.数据分析的重要工具.物联网平台屏蔽了设备接入的复杂性和协议的差异性,解耦应用与设备,为上层应用提供统一格式的数据,简化终端厂商开发的同时,也让应用提供商聚焦于自身的业务开发.基于华为物联网平台的应用开发方案如下

华为云流媒体性能测试解决方案 轻松应对流量危机【华为云技术分享】

背景 随着带宽提速和互联网发展,内容丰富.形式多样的视频正成为碎片化时代娱乐消费的新宠,短视频.视频直播.在线钢琴陪练.合唱直播一系列新玩法层出不穷,涉及电竞.社交.电商.教育等各个行业.网络视频快速发展对系统性能带来了巨大的考验. 流媒体业务场景 下面是用户与流媒体服务器的简化交互关系,主要分为推流和拉流2大类. 推流就是从外界采集数据后利用流媒体协议将文件推流至流媒体服务器端,拉流就是将文件从流媒体服务器拉取至本地播放的过程,流媒体的文件主要是由音频和视频2个部分组成,youtube.土豆.

【华为云技术分享】如何设计高质量软件-领域驱动设计DDD(Domain-Driven Design)学习心得

DDD做为软件设计方法于2004年提出,一直不温不火,最近几年突然火起来了,为啥呢?正所谓机会给有准备的人,因为微服务的流行,大家都跃跃欲试把传统单体软件转成微服务架构,但理论很丰满,现实很骨感,光是分解微服务就让人找不到北,而DDD是歪打正着也好,富有远见也好,正好适合微服务转型设计,不火都难. 最近学习了领域驱动设计(Domain-Driven Design),感觉受益匪浅,那到底啥是DDD呢?这里分享一下学习心得.网上有很多详细的资料,感兴趣可以看看这个https://www.infoq.

【华为云技术分享】技术探秘:华为云瑶光何以定方向

作为北斗第七星,瑶光自古就可用来判断四季更迭.引向定时.而作为全新发布的智能云操作系统,瑶光智慧云脑又是如何做到统领云上各类资源.实现租户需求与资源供应之间最佳匹配的呢?在华为云瑶光实验室.华为云算法创新实验室里,我们找到了答案. #初识资源调度# 云OS:我太“南”了 依托虚拟化技术,我们得以将数据中心海量的计算.存储资源以云服务的形式对外提供.而随着数据中心规模扩展.边缘计算带来的算力延伸,承担着高效.精准资源调度的云操作系统面临着三大挑战: 第一个挑战是云计算的资源消耗/售卖模式带来的.云

华为云实战开发】5.如何快速创建免费Git代码仓库【华为云技术分享】

1 文章目的 本文主要帮助已经掌握或者想要掌握Git的开发者,如何更好的应用Git,以及更好的将Git与DevCloud结合应用. 2 概述 2.1 版本控制系统介绍 从狭义上来说,版本控制系统是软件项目开发过程中管理代码所有修订版本的软件,能够存储.追踪文件的修改历史,记录多个版本的开发和维护,事实上我们可以将任何对项目有帮助的文档交付版本控制系统进行管理.版本控制系统(Version Control Systems)主要分为两类,集中式和分布式. 2.1.1 集中式版本控制系统 集中式版本控