如何低成本、高效率搭建Hadoop/Spark大数据处理平台

原文链接

随着人们逐渐认识到 “大数据”的价值,互联网、电商到金融业、政企等各行业开始处理海量数据。如何低成本、敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键。

为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性、高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+。这对Hadoop/Spark技术爱好者来说是个非常大的福音,用户可以轻松在D1上搭建大数据存储与计算分析平台,尤其是互联网、金融、电商、政企等对大数据需求旺盛的行业。
据悉,在云端建设大数据平台的建设周期仅需“数分钟”,比传统模式下缩短95%以上;项目建设成本从一次性重资产投入,变为轻资产分期使用,初期建设成本降低80%以上。
不妨一起来看看,相比传统的Hadoop/Spark场景解决方案,D1都有哪些优势:

?按需部署和弹性灵活

传统大数据平台有几个通病:建设周期过长,扩容不便,因此一般都会适当放大大数据建设规模,造成早期资源闲置浪费,也埋下了后期资源不足的隐患,影响业务发展。云计算很早就解决了弹性建设的问题,我们可以按需进行大数据平台建设,并伴随业务的增长而快速弹性伸缩,企业可以做到按需支付成本。
此外,Hadoop/Spark大数据生态系统中组件众多,每种组件对硬件资源的要求不同,而传统大数据平台建设中,往往很难兼顾资源需求上的差异。D1和其他独享型规格族提供了不同的配置,可以为每个Hadoop/Spark组件节点“量体裁衣”来选择实例,最大限度避免资源浪费。

当遇到临时性突发的大数据分析需求时,借助阿里云大数据平台的规模和分析能力,可以快速获得需要的结果,当任务完成后,又能立即释放资源,节省成本。

?性价比

阿里云D1实例采用独享计算架构+本地存储设计,CPU的计算性能在实例间是独享的,这种设计能有效保障大数据计算能力的稳定性。配备高性能企业级6TB SATA硬盘,D1单实例的存储吞吐能力可以达到最大5GB/s,有效缩短HDFS文件读取和写入时间。基于阿里云SDN和网络加速技术,D1在10GE组网环境下,最大可提供20Gbps网络带宽,可满足大数据分析节点间数据交互需求,例如MapReduce计算框架下Shuffle过程等,缩短分析任务整体运行时间。
最重要的一点是,阿里云在D1上做了非常大的交付创新,支持包月、包年的预付费支付模式,同时也支持按小时付费的使用模型,真正做到即开即用,按量付费,没有运维,钱不浪费,云本身的弹性优势就很明显,加上业务上的优化,确实加分不少。

?可靠性

这次云栖大会,阿里云还推出了一个ECS独有的部署集(Deployment Set)机制,可以保证用户采用D1实例构建大数据平台时,在任何规模下都可以充分将实例按业务可靠性要求,在阿里云数据中心中,进行机架、交换机、可用区等级别容灾保护。同时,还可以充分享用阿里云全球高效、稳定的机房和网络基础设施,大大降低客户建设复杂度和成本。这在传统模式下是很难做到,既能做到全局的安全性又能做到局部的弹性伸缩,或许,这就是云的终极形态吧。
总之还是非常推荐这款D1实例的,中大型企业对大数据处理平台的稳定性、性价比、部署周期都有比较强的要求的可以考虑一下。

原文链接

时间: 2024-10-27 16:51:11

如何低成本、高效率搭建Hadoop/Spark大数据处理平台的相关文章

hadoop大数据处理平台与案例

大数据可以说是从搜索引擎诞生之处就有了,我们熟悉的搜索引擎,如百度搜索引擎.360搜索引擎等可以说是大数据技处理技术的最早的也是比较基础的一种应用.大概在2015年大数据都还不是非常火爆,2015年可以说是大数据的一个分水岭.随着互联网技术的快速发展,大数据也随之迎来它的发展高峰期. 整个大数据处理技术的核心基础hadoop.mapreduce.nosql系统,而这三个系统是建立在谷歌提出的大表.分布式文件系统和分布式计算的三大技术构架上,以此来解决海量数据处理的问题.虽然说大数据处理技术最早兴

Hadoop Spark大数据全套课程+共享单车开发项目实战

hadoop spark大数据实时计算全套课程+共享单车开发项目实战 [下载地址:https://pan.baidu.com/s/1SnaWp_ls0V3Z_CgmhGkT7Q ] 有着三四年工作经验的你,面对如此诱惑的薪资和热度爆棚的岗位是否想尝试一下突破紧急,走上职业生涯巅峰? 本期推出java,hadoop,spark大数据从基础到项目实战的全过程培训教材课程目录: 原文地址:http://blog.51cto.com/aino007/2148831

基于Hadoop离线大数据分析平台项目实战

基于Hadoop离线大数据分析平台项目实战  课程学习入口:http://www.xuetuwuyou.com/course/184 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介: 某购物电商网站数据分析平台,分为收集数据.数据分析和数据展示三大层面.其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用. 课程内容 (1)文件收集框架 Flume ①Flume 设计架构.原理(三大组件) ②Flume 初步使

使用Apache Kylin搭建企业级开源大数据分析平台

使用Apache Kylin搭建企业级开源大数据分析平台 转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程

大快DKhadoop大数据处理平台详解

大数据可以说是从搜索引擎诞生之处就有了,我们熟悉的搜索引擎,如百度搜索引擎.360搜索引擎等可以说是大数据技处理技术的最早的也是比较基础的一种应用.大概在2015年大数据都还不是非常火爆,2015年可以说是大数据的一个分水岭.随着互联网技术的快速发展,大数据也随之迎来它的发展高峰期.整个大数据处理技术的核心基础hadoop.mapreduce.nosql系统,而这三个系统是建立在谷歌提出的大表.分布式文件系统和分布式计算的三大技术构架上,以此来解决海量数据处理的问题.虽然说大数据处理技术最早兴起

【大数据干货】基于Hadoop的大数据平台实施——整体架构设计

大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影<云图>--云里雾里的感觉.或许那些正

spark大数据处理之hello world

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,关于它的介绍网上随便一搜都是一大堆,在此就不再赘述了. Spark的开发是基于scala语言的,属于java和js的综合体,知晓java及js的同学应该都是很容易上手的. 开发一个spark的程序一般用专门的IDE,叫做Scala IDE for Eclipse,和开发java的界面差不多. 下面我们就用图文来说明,如何开发出第一个spark的程序.

Spark 大数据平台

Apache Spark is an open source cluster computing system that aims to make data analytics fast - both fast to run and fast to write. BDAS, the Berkeley Data Analytics Stack, is an open source software stack that integrates software components being bu

【福利】送Spark大数据平台 + Scala语言入门视频

没有套路真的是送!! 大家都知道,大数据行业spark很重要,而学spark又必须得会scala,贴心的大叔给你找了份spark+scala的资料. 一个好的程序猿的基本素养是学习能力和自驱力.视频给了你们,能不能坚持下来学习,就只能靠自己了,另外大叔每周会不定期更新<每日五分钟搞定大数据>原创系列,感谢关注. 注意:资料仅供个人学习使用,不可外传,不可用作任何商业用途,谢谢 视频内容: Spark Spark部署 Spark编程模型(1) Spark运行架构(1) Spark SQL原理和实