基于AWS云服务的巨型数据集与大规模计算的应用架构

AWS对于大规模计算方案是很受欢迎的,如科学计算,模拟和研究项目。这些方案包括从科研设备,测量设备,或其他计算作业的大量数据集的采集。采集后,使用大规模计算作业的分析来生成最终数据集。通常,这些结果将提供给更多的受众。

1.  为了将大数据集上传到AWS,关键是拥有最多的可用带宽。 通过多客户端的并行处理,就可以把数据上传到S3, 每个客户端采用多线程技术实现并行上传或上传多部分以便进一步并行处理。像窗口调整和确认选择等TCP设置是可以调整的,以便进一步增强吞吐量。 通过适当的优化,一天上传几TB是可能的。另一种上传大数据集的方法是Amazon Import/Export功能, 这一功能支持将存储设备发送给AWS同时直接插入到Amazon S3 或者 Amazon EBS。

2.  大规模作业的并行处理是关键,现存的并行处理应用能够运行在多个EC2 实例上. 如果应用程序需要一个POSIX风格的文件系统,那么无论是直接使用HTTP或使用FUSE层(例如,S3FS或SubCloud),并行应用程序对所有节点都可以从S3高效地读取和写入数据。

3.  一旦计算完成,结果数据也被存储到S3, EC2 实例可以被关闭,并且将结果数据集就可被下载了,或者通过授予读取权限来指定用户,指定所有人或使用有限时间的URL,完成输出数据与他人的共享。

4.  如果不用 S3, 也可以使用 Amazon EBS保存输入数据,作为临时存储区,或者获得输出结果。 在上传期间,要同样采用并行流上传和TCP调整的技术。另外,还可以使用UDP使上传加速。结果数据集可以被写入EBS卷,时间快照可采取共享卷的方式。

时间: 2024-10-15 17:35:18

基于AWS云服务的巨型数据集与大规模计算的应用架构的相关文章

基于AWS云服务的批处理系统架构

在AWS执行批处理任务时,允许按需配置多部分作业处理的应用架构,可用于对异构的系统的瞬时或延迟部署,并可扩展为"网格"型工作节点,通过并联的大批量任务处理实现快速收敛.面向批处理应用程序现在可以有很多的地方利用这种风格按需加工,包括理赔处理,大规模改造,媒体转码和多部分的数据处理工作. 批处理架构通常是高可变使用模式的代名词,即在一段低使用率后有明显的使用峰值(例如,月末的处理).构建一个批处理架构有很多的方法.本文给出了一个基本的批处理架构,用来支持作业调度,作业状态检查,上传原始数

基于AWS云服务的容错和高可用性应用架构

AWS提供了在云端构建可靠的,容错的,高可用系统的基础设施和服务.需要开发者的特殊关注,这些特性已经设计在AWS服务中了,但需要明确和准确的使用. Amazon EC2 提供了构建目标基础设施的模块,它们本身不是容错的,硬盘.电源.甚至机架都可能挂掉,本文中组合特性的使用能够实现容错性和高可用性. 1.  负载均衡是增加系统可用性的有效方法.如果负载均衡器后的实例失效,可以被无缝地替换掉,而不影响其他实例地运行.弹性负载均衡可以对一个地域的多个可用区上的实例进行负载均衡. 2.  可用区(AZS

中、小企业尝试使用 AWS 云服务的原因

亚马逊 AWS 目前提供超过 30 多个基于云的主机,计算,数据库和管理服务,它 在通用性和价格方面几乎是其他云服务厂商无法匹敌的. 不仅一些非常流行的站点已经在使用 AWS 的服务,如 Netflix, Reddit, and Spotify,也是许多初创公司值得依赖的工具和服务. 下面是总结的中.小企业必须要尝试使用亚马逊 AWS 云服务的 5 个原因: 1.可动态扩展的特性. 无论您是使用 AmazonS3 存储或带宽密集型数据服务,只需要支付您使用的部分,小企业可以支付小企业的价格,而规

亚马逊AWS在线系列讲座——基于AWS云平台的高可用应用设计

设计高可用的应用是架构师的一个重要目标,但是基于云计算平台设计高可用应用与基于传统平台的设计有许多不同.云计算在给架构师带来了许多新的设计挑战的时候,也给带来了许多新的设计理念和可用的服务.如何在设计应用的时候充分利用云平台的各种特点是基于云计算设计的一个重要条件.在这个在线讲座中,我们将以亚马逊AWS云平台为例,讨论如何设计一个高可用应用. 我们先会根据AWS服务是否天然高可用.高容错的特点把常见的AWS服务分类.比如AWS把下面服务设计成高可用和高容错的服务: ·     Amazon S3

你所不知道的AWS 云服务清单(71种)

导读 AWS,即亚马逊 Web 服务,是一个提供了一系列按使用计费的 web 服务的云平台. 它是迄今为止最为著名的云平台之一.由于其灵活性.有效性.弹性.可测量性和无须维护,所以有一些企业正逐步把他们的业务迁移到云端. 由于许多公司目前在使用这些服务,所以对于系统管理员和运维人员来说应该了解一下 AWS.认识 71 个 AWS 云服务的术语 ! 通过了解 AWS 世界中使用的术语开始你的 AWS 云服务使用生涯 ! 计算型服务 这是一个提供了虚拟服务器配置功能的服务,即所谓的云计算.它提供了包

AWS携手上海嘉定政府推出首个联合孵化器 为创业公司拓展AWS云服务可用资源

2014年10月17日 AWS Activate创业加速计划为中国创业公司提供各种支持,包括AWS全球和中国区服务抵扣券.培训和开发者支持.同时,AWS携手上海嘉定政府成立首家联合孵化器,为创业公司提供整合的业务支持,包括免费的办公场所.设施.宿舍和一系列的政府优惠政策. 今天,我们很高兴和上海市嘉定区政府,联合宣布创梦上海嘉定AWS联合孵化器的正式发布.联合孵化器通过对AWS  Activate创业加速计划及嘉定区政府对创业公司支持资源的整合,为创业团队提供丰富的创业支持.AWS  Activ

面向AWS云服务的Web应用架构

高可用和可扩展的web应用是复杂而昂贵的.密集的高峰时段和流量模式的剧烈波动导致昂贵的硬件利用率低下.Amazon 云服务为web 应用提供高可靠的,可扩展的,安全的高性能基础设施,同时保证了弹性,根据客户的流量变化而实时调整规模进而降低了成本.   1)Amazon-Route-53 来处理用户的DNS请求,这是一个高可用的DNS服务,网络流量通过云服务路由到其他的基础设施 2) 静态数据,流数据,和动态内容通过Amazon CloudFont发布到一个全球CDN网络的位置边缘,请求被自动路由

Microsoft Azure系列之九 实现基于Iaas云服务的虚机负载平衡

如果需要对一个云服务下的不同虚拟机实现负载均衡,可以将Public Port的消息通过负载均衡转发到每个VM,从而实现请求的自动负载均衡. 具体拓扑如下: 我们可以对之前创建的这两台虚拟机,设置80端口的负载均衡. 注意:Azure的负载均衡目前只支持四层,不能保留Session. 负载均衡的算法是Azure设置好的,不能修改.算法主要依赖于五元组(source IP, source port, destination IP, destination port, protocol type).

AWS 云服务各组件之间的关系

一.Voulme.Sanpshot.AMI.EC2 An AMI includes the following: One or more EBS snapshots, or, for instance-store-backed AMIs, a template for the root volume of the instance (for example, an operating system, an application server, and applications). Launch