Sahara的落地实践

何为Sahara

The Sahara project provides a simple means to provision a Hadoop cluster on top of OpenStack

即基于OpenStack提供简单的Hadoop集群创建和管理方式。

Sahara提供的功能

*      Hadoop cluster的创建

*      Hadoop cluster的扩展

*      提供业务应用能力(Elastic Data Processing)

l  支持业务应用的类型包括mapreduce,java,hive,pig,streaming

l  在已存在的hadoop集群上直接执行用户的应用(job)。

l  新建一个hadoop集群执行用户的应用(job),执行完成后自动销毁hadoop集群,释放资源。

Cluster模式

*      模板化配置

*      Nodegroup template 和cluster template

*      Nodegroup template:

l  vm的配置参数(flavor,floating ip, volume);

l  process以及其配置参数,例如namenode,jobtracker和对应的hdfs,mapreduce参数

*      Cluster template:

l  node group参数,包括使用的node template及其个数

l  hadoop cluster参数

*      以plugin的方式支持多种hadoop发行版及hadoop版本(vanilla,hdp,cloudera,mapR,spark)

*      支持vm的资源调度策略。(anti-affinity)

*      支持Transient Clusters

*      支持手动scale hadoop Clusters (支持datanode和tasktracker的scale)

*      支持direct和heat两种方式部署vm

*      支持Cinder

*      支持Neutron and Nova Network

*      Security group management

*      Multi region deployment

*      Data-locality

*      使用方式

*      创建若干个Nodegroup template

*      创建cluster template

*      通过cluster template创建cluster

*      Scale cluster

Swift和Hadoop的集成

Swift是OpenStack开源云计算项目的子项目之一,被称为对象存储,提供了强大的扩展性、冗余和持久性。

*      极高的数据持久性(Durability)。

*      完全对称的系统架构:“对称”意味着Swift中各节点可以完全对等,能极大地降低系统维护成本。

*      无限的可扩展性:一是数据存储容量无限可扩展;二是Swift性能(如QPS、吞吐量等)可线性提升。

*      无单点故障:Swift的元数据存储是完全均匀随机分布的,并且与对象文件存储一样,元数据也会存储多份。整个Swift集群中,也没有一个角色是单点的,并且在架构和设计上保证无单点业务是有效的。

*      简单、可依赖。

SwiftHDFS的技术差异

*      在Swift中,元数据呈分布式,跨集群复制。而在HDFS使用了中央系统来维护文件元数据(Namenode,名称节点),这对HDFS来说无异于单一故障点,因而扩展到规模非常大的环境显得更困难。

*      Swift在设计时考虑到了多租户架构,而HDFS没有多租户架构这个概念。

*      在Swift中,文件可以写入多次;在并发操作环境下,以最近一次操作为准。而在HDFS中,文件写入一次,而且每次只能有一个文件写入。

*      Swift用Python来编写,而HDFS用Java来编写。

*      Swift被设计成了一种比较通用的存储解决方案,能够可靠地存储数量非常多的大小不一的文件;而HDFS被设计成可以存储数量中等的大文件(HDFS针对更庞大的文件作了优化),以支持数据处理。

*      Hadoop目前已经支持Swift作为自身的分布式文件系统

*      使用url为swift://acontainer.aservice/path/to/files格式访问swift

*      代替hdfs,实现hadoop集群中计算资源和存储资源的分离,对于需要长期保留数据,而仅仅在需要时进行计算的场景非常有用。

Sahara的优势

*      ? 提升Hadoop部署速度,简单方便

*      ?  hadoop参数的模板化定义,统一配置管理

*      ? 提升Hadoop环境资源利用率

*      ? 安全隔离让Hadoop落地更安全

*      ? 实现Hadoop云端多租户

*      ? 提供大数据的业务处理能力,简化业务人员的工作。

时间: 2024-07-30 15:03:50

Sahara的落地实践的相关文章

演讲实录 | DevOps 与传统的融合落地实践(上)

导读:5月6日,优维科技与数人云主办了[DevOps&SRE超越传统运维之道 · 深圳站],6月北京站敬请关注~本文是优维科技CEO王津银关于DevOps与传统的融合落地实践的精彩分享 王津银/优维科技创始人&CEO 中国开放运维联盟发起人,精益运维"理论提出者,中国第一批DevOps Master授权讲师,持续交付专家,业内人称"老王"."互联网运维杂谈"公众号创办者.致力于互联网运维整体解决方案的产品化能力提升,缩短企业到达互联网运维的

优维DevOps系列沙龙全回顾:DevOps+SRE落地实践+DevOps最后一棒

5月6日,优维科技和数人云联合主办的DevOps&SRE系列活动<DevOps&SRE 超越传统运维之道>在深圳顺利举行. 优维科技CEO王津银.数人云CEO王璞.腾讯SNG运维负责人梁定安分别分享了<DevOps与传统的融合落地实践及案例分享><SRE在传统企业中的落地实践><DevOps最后一棒,有效构建海量运营的持续反馈能力>,为大家带来了一场异彩纷呈的技术盛宴. △场面爆满 除了DevOps.SRE相关的经验,还有具体落地的案例分享,

企业级云管理平台的架构实现与落地实践、趋势分析

4月23日天云软件技术开放日已圆满落幕,接下来几天将陆续放出沙龙期间技术大牛们的干货分享现场实录及相关文件,敬请关注.此文为第一篇,由天云软件产品总监马俊带来的IaaS专题:企业级云管理平台的架构实现与落地实践.趋势分析,以下为演讲实录. 马俊:我给大家介绍一下云管平台,OpenStack现在比较流行,企业级客户IT架构在OpenStack上会有一个云管的平台,整个业界对云系统建设也都是怎么认识的. 我们看其实最下面有一个虚拟化的层,这里面有Vsphere.KVM.XenServer,然后在上面

python coding style guide 的高速落地实践

python coding style guide 的高速落地实践 机器和人各有所长,如coding style检查这样的可自己主动化的工作理应交给机器去完毕,故发此文帮助你在几分钟内实现coding style的自己主动检查. 1.有哪些著名的Python Coding Style Guide PEP8 https://www.python.org/dev/peps/pep-0008/ 发明Python语言丰碑人物Guido van Rossum的亲自写的Coding Style, 知名度5颗

Dubbo Mesh 在闲鱼生产环境中的落地实践

本文作者至简曾在 2018 QCon 上海站以<Service Mesh 的本质.价值和应用探索>为题做了一次分享,其中谈到了 Dubbo Mesh 的整体发展思路是"借力开源.反哺开源",也讲到了 Service Mesh 在阿里巴巴的发路径将经历以下三大阶段: 撬动做透价值***实现技术换代Dubbo Mesh 在闲鱼生产环境的落地,分享的是以多语言为撬动点的阶段性总结. 文章首发于「QCon」,阿里巴巴中间件授权转载. 闲鱼场景的特点闲鱼采用的编程语言是 Dart,思

(转)微服务框架落地实践之路

http://www.primeton.com/read.php?id=2276&his=1 一.微服务架构产生的背景 近十年中,互联网给我们生活带来了翻天覆地的变化,消费者的生活方式日益数字化,人们可以在任何时间.任何地点利用网络进行购物体验,运用社交媒体进行自我表达,企业也在运用多种技术手段,发挥数字化潜力,改善客户联系,促进企业业务模式的转型.在这种背景下,互联网也好,传统企业也罢,都面临一个共同的需求:面对快速变化的需求,面对业务模式的升级,如何构建出灵活的,可扩展,可重用的系统? 前几

干货 | 博云基于OVS自研容器网络插件在金融企业的落地实践

本文根据博云在dockerone社区微信群分享内容整理 过去几年博云在企业中落地容器云平台遇到了很多痛点,其中一个比较典型的痛点来自网络方面,今天很高兴跟大家聊聊这个话题并介绍下我们基于OVS自研的CNI插件——内部称之为fabric项目. 01 容器平台落地时网络方面的需求 从2013年左右Docker技术在开发者中流行起来,到如今kubernetes已经成为事实上的容器编排引擎,容器.微服务.DevOps互相支持互相促进,容器云平台的实际落地案例开始越来越多.特别是2018年以来,越来越多的

数据分析的5层解读,报表仍是有效的落地实践!

文 | 船长 浙江天正电气股份有限公司(下文简称浙江天正),是中国工业电器行业规模最大的企业之一,是中国低压电器行业的领军企业.旗下有四处电气工业园:温州.嘉兴.上海.南京,低压电器行业业务以配电与工业控制为主. 2017年4月份,在温州,企业信息化交流会上,浙江天正电气控股的李书育谈起天正电气曾经面临的数据分析的挑战,分享了一年来的实践经验. 项目背景 浙江天正1999年成立,信息化也经历了近18年.浙江天正先后建设了大大小小十几套信息化系统(信息化应用简图如下),其中核心系统有四个:ERP(

SpringCloud落地实践

这几年微服务架构越来越火.伴随着微服务概念的提示,越来越多的组织为了方便开发,结合实际提供很多微服务机构, 之前工作中一直使用dubbo作为微服务框架, dubbo只是专注于服务之间的通讯,所以更灵活以扩展,但同时也暴露其弊端, 微服务其他领域关注不够.所以很多企业目前采用Spring Cloud,SpringCloud 基于Spring Boot 提供微服务领域的一整套解决方案. 当然Spring Cloud并没有重复造轮子.而是基于一些开源组件做了整合,像比较厉害的公司 Netflex就贡献