基于AWS云服务的批处理系统架构

在AWS执行批处理任务时,允许按需配置多部分作业处理的应用架构,可用于对异构的系统的瞬时或延迟部署,并可扩展为“网格”型工作节点,通过并联的大批量任务处理实现快速收敛。面向批处理应用程序现在可以有很多的地方利用这种风格按需加工,包括理赔处理,大规模改造,媒体转码和多部分的数据处理工作。

批处理架构通常是高可变使用模式的代名词,即在一段低使用率后有明显的使用峰值(例如,月末的处理)。构建一个批处理架构有很多的方法。本文给出了一个基本的批处理架构,用来支持作业调度,作业状态检查,上传原始数据,输出作业结果,网格管理,以及报告作业性能的数据。

1. 作业管理器部署在EC2 实例上,用户通过Elastic IP与之交互。作业管理器组件控制着进程的接收,调度,启动,管理以及完成批处理作业, 同时也可以访问最终的结果,作业和worker状态,以及作业的进展信息。

2.  原始的作业数据被上传到一个高可用的永久存储器中,即S3.

3.  根据用户的行为,作业管理器将单独的作业任务插入到SQS中。

4.  Worker节点是使用AutoScaling组服务的 EC2 实例。 这个组是一个保证了worker 节点健康和可扩展的容器。Worker 节点自动地从输入队列中提取作业部分,同时执行批处理步骤列表中的单独任务。

5.  worker 节点产生的中间数据存储在 Amazon S3中。

6.  作业进展信息和统计信息存储在分析存储区。分析存储区既可以用AmazonSimpleDBRDS 实例.

7.  作为可选项, 已完成的任务可以插入到AmazonSQS 队列中,用于链式结构的再次处理节点。

时间: 2024-10-15 03:41:17

基于AWS云服务的批处理系统架构的相关文章

基于AWS云服务的容错和高可用性应用架构

AWS提供了在云端构建可靠的,容错的,高可用系统的基础设施和服务.需要开发者的特殊关注,这些特性已经设计在AWS服务中了,但需要明确和准确的使用. Amazon EC2 提供了构建目标基础设施的模块,它们本身不是容错的,硬盘.电源.甚至机架都可能挂掉,本文中组合特性的使用能够实现容错性和高可用性. 1.  负载均衡是增加系统可用性的有效方法.如果负载均衡器后的实例失效,可以被无缝地替换掉,而不影响其他实例地运行.弹性负载均衡可以对一个地域的多个可用区上的实例进行负载均衡. 2.  可用区(AZS

基于AWS云服务的巨型数据集与大规模计算的应用架构

AWS对于大规模计算方案是很受欢迎的,如科学计算,模拟和研究项目.这些方案包括从科研设备,测量设备,或其他计算作业的大量数据集的采集.采集后,使用大规模计算作业的分析来生成最终数据集.通常,这些结果将提供给更多的受众. 1.  为了将大数据集上传到AWS,关键是拥有最多的可用带宽. 通过多客户端的并行处理,就可以把数据上传到S3, 每个客户端采用多线程技术实现并行上传或上传多部分以便进一步并行处理.像窗口调整和确认选择等TCP设置是可以调整的,以便进一步增强吞吐量. 通过适当的优化,一天上传几T

中、小企业尝试使用 AWS 云服务的原因

亚马逊 AWS 目前提供超过 30 多个基于云的主机,计算,数据库和管理服务,它 在通用性和价格方面几乎是其他云服务厂商无法匹敌的. 不仅一些非常流行的站点已经在使用 AWS 的服务,如 Netflix, Reddit, and Spotify,也是许多初创公司值得依赖的工具和服务. 下面是总结的中.小企业必须要尝试使用亚马逊 AWS 云服务的 5 个原因: 1.可动态扩展的特性. 无论您是使用 AmazonS3 存储或带宽密集型数据服务,只需要支付您使用的部分,小企业可以支付小企业的价格,而规

亚马逊AWS在线系列讲座——基于AWS云平台的高可用应用设计

设计高可用的应用是架构师的一个重要目标,但是基于云计算平台设计高可用应用与基于传统平台的设计有许多不同.云计算在给架构师带来了许多新的设计挑战的时候,也给带来了许多新的设计理念和可用的服务.如何在设计应用的时候充分利用云平台的各种特点是基于云计算设计的一个重要条件.在这个在线讲座中,我们将以亚马逊AWS云平台为例,讨论如何设计一个高可用应用. 我们先会根据AWS服务是否天然高可用.高容错的特点把常见的AWS服务分类.比如AWS把下面服务设计成高可用和高容错的服务: ·     Amazon S3

你所不知道的AWS 云服务清单(71种)

导读 AWS,即亚马逊 Web 服务,是一个提供了一系列按使用计费的 web 服务的云平台. 它是迄今为止最为著名的云平台之一.由于其灵活性.有效性.弹性.可测量性和无须维护,所以有一些企业正逐步把他们的业务迁移到云端. 由于许多公司目前在使用这些服务,所以对于系统管理员和运维人员来说应该了解一下 AWS.认识 71 个 AWS 云服务的术语 ! 通过了解 AWS 世界中使用的术语开始你的 AWS 云服务使用生涯 ! 计算型服务 这是一个提供了虚拟服务器配置功能的服务,即所谓的云计算.它提供了包

AWS携手上海嘉定政府推出首个联合孵化器 为创业公司拓展AWS云服务可用资源

2014年10月17日 AWS Activate创业加速计划为中国创业公司提供各种支持,包括AWS全球和中国区服务抵扣券.培训和开发者支持.同时,AWS携手上海嘉定政府成立首家联合孵化器,为创业公司提供整合的业务支持,包括免费的办公场所.设施.宿舍和一系列的政府优惠政策. 今天,我们很高兴和上海市嘉定区政府,联合宣布创梦上海嘉定AWS联合孵化器的正式发布.联合孵化器通过对AWS  Activate创业加速计划及嘉定区政府对创业公司支持资源的整合,为创业团队提供丰富的创业支持.AWS  Activ

面向AWS云服务的Web应用架构

高可用和可扩展的web应用是复杂而昂贵的.密集的高峰时段和流量模式的剧烈波动导致昂贵的硬件利用率低下.Amazon 云服务为web 应用提供高可靠的,可扩展的,安全的高性能基础设施,同时保证了弹性,根据客户的流量变化而实时调整规模进而降低了成本.   1)Amazon-Route-53 来处理用户的DNS请求,这是一个高可用的DNS服务,网络流量通过云服务路由到其他的基础设施 2) 静态数据,流数据,和动态内容通过Amazon CloudFont发布到一个全球CDN网络的位置边缘,请求被自动路由

Microsoft Azure系列之九 实现基于Iaas云服务的虚机负载平衡

如果需要对一个云服务下的不同虚拟机实现负载均衡,可以将Public Port的消息通过负载均衡转发到每个VM,从而实现请求的自动负载均衡. 具体拓扑如下: 我们可以对之前创建的这两台虚拟机,设置80端口的负载均衡. 注意:Azure的负载均衡目前只支持四层,不能保留Session. 负载均衡的算法是Azure设置好的,不能修改.算法主要依赖于五元组(source IP, source port, destination IP, destination port, protocol type).

基于AWS的金融服务网格计算系统架构

基于云环境的金融服务网格计算提供了对计算作业按需操作的动态扩展和弹性,利用聚合服务简化了网格软件的开发. 对硬件的按需配置和模板驱动的部署,结合对现有内部部署的数据源的低延迟访问,AWS为高性能网格计算系统提供了一个强大的平台. 1.  市场信息,交易数据和竞争对手数据开始被安装在企业内部的数据中心或者AmazonSimple Storage Service (Amazon S3). 2.  AWS DirectConnect 建立了企业数据中和AWS之间从1到10GB的低时延可靠连接. 对于低