EMR：一体化Hadoop云上工作平台

摘要： Hadoop生态体系日臻完善，如何利用Hadoop生态各项技术与阿里云更好的服务于企业。EMR最新发布的工作流管理、弹性伸缩、异构计算多项功能，更好的助力用户在阿里云上利用Hadoop、Spark生态体系解决企业大数据问题。

Hadoop生态体系日臻完善，如何利用Hadoop生态各项技术与阿里云更好的服务于企业。EMR最新发布的工作流管理、弹性伸缩、异构计算多项功能，更好的助力用户在阿里云上利用Hadoop、Spark生态体系解决企业大数据问题。

EMR数据开发工作台
EMR数据开发工作台集成了作业编辑、工作编辑和临时查询等功能，能更好的满足用户云上离线数据处理、数据分析和探索挖掘等场景。主要特点在于：

支持多样化的大数据作业，支持shell，Hive，MapReduce，Spark，SparkStreaming等多种离线，实时类型作业，企业数据开发人员可在线编辑，调试。
更低的数据开发门槛，用户通过拖拽式的大数据开发完成数据的接入，相较于Oozie、Azkaban等开源解决方案，运营人员，数据科学家可以更直观的进行大数据开发。
交互式数据探索，为用户提供交互式Hive、SparkSQL查询、分析，快速提取海量数据价值。
集群弹性伸缩
EMR弹性伸缩能更好的缝合公有云计算资源弹性和Hadoop生态体系开放的两大优势，实现计算资源根据集群繁忙程度弹性伸缩，帮助企业降低Hadoop资源的使用成本。

定时扩缩容集群，用户设置在制定时间对集群进行扩容、缩容，满足日报、周报、月报等需临时追加计算资源的场景。
支持多种ECS实例，受ECS库存影响，弹性伸缩会由于库存不足造成执行失败，为提升伸缩动作执行成功概率，弹性伸缩可同时支持多种ECS实例，且能一次性把尽量多的库存资源全部买出，保证集群资源。
EMR Learning
深度学习、AI以成为目前炙手可热的词汇，EMR Learning将深度学习和开源大数据技术深度结合，提供一体化的大数据+深度学习服务。利用一个集群，构建企业数据湖，同时进行机器学习和深度学习。

支持ECS CPU+GPU的异构计算，通过Hadoop YARN调度集群GPU资源
支持Horvod，TensorFlow，SparkML等计算框架，一个集群内进行机器学习和深度学习。
可采用PS、MPI等数据通信模式，解决深度学习的通信瓶颈
支持Docker，Muti-Env多运行环境隔离
了解更多大数据家族产品详情，欢迎点击：
https://et.aliyun.com/bigdatarelease
点击观看大数据家族产品发布会：
https://yq.aliyun.com/webinar/play/508
【阿里云新品发布】开启新一代数据智能开发之路：
https://yq.aliyun.com/roundtable/325525

原文链接

本文为云栖社区原创内容，未经允许不得转载。

原文地址：http://blog.51cto.com/13952056/2171777

时间： 2024-10-04 21:50:51

EMR：一体化Hadoop云上工作平台

EMR：一体化Hadoop云上工作平台的相关文章

hadoop云盘客户端的设计与实现（一）

在云上搭建大规模实时数据流处理系统

云上拍客梨视频基于阿里云的技术实践分享

大数据学习-1 在阿里云上集成6台云服务器

云上数据仓库选型指南

《2018年云上挖矿态势分析报告》发布，非Web类应用安全风险需重点关注

华为云携手英方，助力新大正物业实现云上两地三中心

在“云”上做科研，是种什么体验？

云计算之路-阿里云上-容器难容：自建docker swarm集群遭遇无法解决的问题