EMR:一体化Hadoop云上工作平台

摘要: Hadoop生态体系日臻完善,如何利用Hadoop生态各项技术与阿里云更好的服务于企业。EMR最新发布的工作流管理、弹性伸缩、异构计算多项功能,更好的助力用户在阿里云上利用Hadoop、Spark生态体系解决企业大数据问题。

Hadoop生态体系日臻完善,如何利用Hadoop生态各项技术与阿里云更好的服务于企业。EMR最新发布的工作流管理、弹性伸缩、异构计算多项功能,更好的助力用户在阿里云上利用Hadoop、Spark生态体系解决企业大数据问题。

EMR数据开发工作台
EMR数据开发工作台集成了作业编辑、工作编辑和临时查询等功能,能更好的满足用户云上离线数据处理、数据分析和探索挖掘等场景。主要特点在于:

支持多样化的大数据作业,支持shell,Hive,MapReduce,Spark,SparkStreaming等多种离线,实时类型作业,企业数据开发人员可在线编辑,调试。
更低的数据开发门槛,用户通过拖拽式的大数据开发完成数据的接入,相较于Oozie、Azkaban等开源解决方案,运营人员,数据科学家可以更直观的进行大数据开发。
交互式数据探索,为用户提供交互式Hive、SparkSQL查询、分析,快速提取海量数据价值。
集群弹性伸缩
EMR弹性伸缩能更好的缝合公有云计算资源弹性和Hadoop生态体系开放的两大优势,实现计算资源根据集群繁忙程度弹性伸缩,帮助企业降低Hadoop资源的使用成本。

定时扩缩容集群,用户设置在制定时间对集群进行扩容、缩容,满足日报、周报、月报等需临时追加计算资源的场景。
支持多种ECS实例,受ECS库存影响,弹性伸缩会由于库存不足造成执行失败,为提升伸缩动作执行成功概率,弹性伸缩可同时支持多种ECS实例,且能一次性把尽量多的库存资源全部买出,保证集群资源。
EMR Learning
深度学习、AI以成为目前炙手可热的词汇,EMR Learning将深度学习和开源大数据技术深度结合,提供一体化的大数据+深度学习服务。利用一个集群,构建企业数据湖,同时进行机器学习和深度学习。

支持ECS CPU+GPU的异构计算,通过Hadoop YARN调度集群GPU资源
支持Horvod,TensorFlow,SparkML等计算框架,一个集群内进行机器学习和深度学习。
可采用PS、MPI等数据通信模式,解决深度学习的通信瓶颈
支持Docker,Muti-Env多运行环境隔离
了解更多大数据家族产品详情,欢迎点击:
https://et.aliyun.com/bigdatarelease
点击观看大数据家族产品发布会:
https://yq.aliyun.com/webinar/play/508
【阿里云新品发布】开启新一代数据智能开发之路:
https://yq.aliyun.com/roundtable/325525

原文链接

本文为云栖社区原创内容,未经允许不得转载。

原文地址:http://blog.51cto.com/13952056/2171777

时间: 2024-07-30 14:53:53

EMR:一体化Hadoop云上工作平台的相关文章

hadoop云盘客户端的设计与实现(一)

最近在hadoop云盘客户端项目,在做这个项目以前对hadoop是一点都不了解呀,在网上查了好久,将客户端开发的是很少的,在做这个项目的过程中遇到很多奇葩的问题.而且试图换过好多方案,曾陷入深渊准备放弃,最后还是坚持下来了.在这里写篇博文,把我最近的遇到的困难和做客户端 的基本思路列出来,希望能够帮助哪些做类似项目的开发者们! 下面是hadoop客户端简单的需求: 1.能够实现基本的文件存储操作,上传.下载.删除.重命名.分类.创建文件夹.分享等功能. 2.能够运行在多操作系统下:Windows

在云上搭建大规模实时数据流处理系统

在大数据时代,数据规模变得越来越大.由于数据的增长速度和非结构化的特性,常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集.管理 和处理.本文主要介绍如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处理系统,以及这个过程中主要遭遇的一些挑战.实践主要立 足建立一套汽车状态实时监控系统,可以在阿里云上立即进行部署. 一.实时大数据处理利器——Storm和Kafka 大数据时代,随着可获取数据的渠道增多,比如常见的电子商务.网络.传感器的数据流.太空数据等,数据规模也变得

云上拍客梨视频 基于阿里云的技术实践分享

摘要: 梨视频大部分的业务都选择了阿里云,其中一个主要原因是阿里云提供基于钉钉群构建的24贴身技术支持,刘隽表示,这种服务模式可以更充分.高效的对接需求,快速得到反馈,这也让梨视频的同学有信心去尝试一些新的方案. 在上海云栖大会视频专场中,梨视频CTO刘隽先生分享了梨视频拍客生产全流程及其背后的技术,同时作为业务使用方,向现场嘉宾阿里云产品的使用实践. 云上拍客梨视频 梨视频是全球第一资讯短视频内容生产和消费平台,拥有5万名全球核心拍客,遍布全球七大洲,覆盖525个国际主要城市和2000多个国内

大数据学习-1 在阿里云上集成6台云服务器

一.为什么要大数据学习? 这是一个大数据的时代,一个企业只有掌握了大数据才能把握住市场的命脉,一个人掌握了大数据就可以比较轻松的向机器学习.人工智能等方向发展.所以我们有必要去掌握大数据的技术同时也关注大数据的发展趋势,不能裹足不前. 二.关于本专题的学习 作为一个普通本科大学生,在校的大数据学习比较的"水",普通大学嘛,大家都懂.在一个就是编程实战方向上的东西本来就该靠自学,而不是靠别人去教.我觉得大数据的学习是一个缓慢的过程,需要半年的时间去学习.我想在大二结束差不多就可以完成大数

云上数据仓库选型指南

前言: 云数据仓库是构建在云上的新一代数据仓库解决方案,如何选择符合企业需求的云数据仓库,选择时应考虑哪些关键问题成为很多企业管理者关心的问题.本文参考TDWI以及Forrester的研究报告内容,对云数据仓库选型参考依据进行介绍,希望能对您在云数据仓库选型时有所帮助. 正文: 云数据仓库的解决方案改变了我们传统的数据平台构建方法.您可以在没有平台技术专家的指导下在几分钟内创建并开始使用数据仓库服务,让企业的数据分析师及其他非技术人员访问并处理大规模的数据以快速获得业务洞察.企业得以在更低的成本

《2018年云上挖矿态势分析报告》发布,非Web类应用安全风险需重点关注

近日,阿里云安全团队发布了<2018年云上挖矿分析报告>.该报告以阿里云2018年的***数据为基础,对恶意挖矿态势进行了分析,并为个人和企业提出了合理的安全防护建议. 报告指出,尽管加密货币的价格在2018年经历了暴跌,但挖矿仍是网络黑产团伙在***服务器之后最直接的变现手段,越来越多的0-Day/N-Day漏洞在公布后的极短时间内就被用于***挖矿,黑产团伙利用漏洞发起***进行挖矿的趋势仍将持续. 以下是报告部分内容,下载报告完整版:https://yq.aliyun.com/downl

华为云携手英方,助力新大正物业实现云上两地三中心

云平台宕机事件不断出现,这也让云灾备的热度居高不下. 传统的灾备更多的是基于物理层面进行,过多的依赖于硬件,对于云上的虚拟化平台并不友好.而英方基于操作系统层面的灾备方式在这样的环境下就表现出了更强的优势.比如对不同虚拟化平台的兼容性,对网路带宽的低依赖性,使得英方在云平台上的表现更佳优益,也进一步推进了英方与华为云的合作.多年的合作基础一直是英方和华为不断加深技术交流和沟通的基石.撇开业务上的相辅相成和企业愿景上的志同道合,在技术上,英方和华为的融合也会取得1+1>2的效果. 以不断完善的技术

在“云”上做科研,是种什么体验?

如今,做研究的人需要什么? 试管?文献?电脑?如果再来一朵 "云"会怎样? 别误会,并不是让科研人员上天做科研,而是——给他们一朵"中国科技云". <strong>大数据时代呼唤科技云</strong> 以"数据密集型"和"大数据"驱动的科学研究范式带来了科研方法论的变革,正成为科学发现的新引擎. 数据与计算平台已经成为当代科学研究重要的信息基础设施,并且将融汇贯穿于整个科学研究活动的全过程.<s

云计算之路-阿里云上-容器难容:自建docker swarm集群遭遇无法解决的问题

我们从今年6月开始在生产环境进行 docker 容器化部署,将已经迁移至 ASP.NET Core 的站点部署到 docker swarm 集群上.开始我们选用的阿里云容器服务,但是在使用过程中我们遭遇了恐怖的路由服务(acsrouting)路由错乱问题 —— 请求被随机路由到集群中的任一容器,虽然后来阿里云修复了这个问题,但我们对容器服务失去了信心,走上了用阿里云服务器自建 docker swarm 集群的道路. 用上自建 docker swarm 集群之后,本以为可以在云上容器中过上安稳的日