AWS 数据分析服务(十)

Amazon Kinesis

概念

  • 处理AWS上大量流数据的数据平台
  • Kinesis Streams 用于搜集数据,Client Library 用于分析后的展示
  • 构建用于处理或分析流数据的自定义应用程序
  • 可以支持从数十万中来源捕获和存储TB级的数据,如网站点击流、财务交易、媒体馈送、IT日志等
  • 使用IAM限制用户和角色对Kinesis的访问,使用角色的临时安全凭证可以提高安全性
  • Kiesis只能使用SSL加密进行访问

Kinesis组件

Kinesis Data Firehose

  • 加载大量流数据到AWS服务中
  • 数据默认被存储在S3中,从S3还可以再被进一步转存到Redshift
  • 数据也可以被写入到ElaticSearch中,并且同时备份到S3

Kinesis Data Streams:

  • 自定义构建应用程序,实时分析流数据
  • 利用AWS开发工具包,可以实现数据在流中移动时仍然能被处理,从而接近实时
  • 为了接近实时,处理的复杂度通常较轻
  • 创建者 Producer 持续将数据推送进Data Streams
  • 数据在DataStream 由一组组分片(Shards)组成,每个分片就是一条记录,通过不断分片实现几乎无限的扩展能力
  • 使用者 Comsumer 会实时对Data Steams的内容进行处理,并且将结果推送到不同的AWS服务
  • 数据在Stream中是临时的,默认存储24小时,最大可以设置为7天

Kinesis Data Analytics

  • 使用标准SQL实时分析流数据

Kinesis Video Streams

  • 捕获、处理并存储视频流用于分析和机器学习

适用场景

  • 大量的数据摄取
  • 海量流数据的实时处理

Elastic MapReduce ( EMR)

概念

  • 提供完全托管的按需 Hadoop 框架
  • 启动EMR集群的必选项
  • 集群节点的实例类型
  • 集群中的节点数量
  • 希望运行的Hadoop版本
  • Hadoop集群选择存储类型至关重要,主要因素是集群是持久的还是瞬态的
  • 需要持续运行并分析数据的集群是持久集群
  • 按需启动并在完成后立即停止的集群为瞬时集群
  • 默认不限制EMR集群数量,但限制用于EMR节点总数为20个,可申请扩展
  • 可以从S3以及其他任何位置摄取数据
  • Hadoop 日志文件默认存储在S3中,且不支持压缩
  • EMR支持竞价实例
  • EMR需要在一个可用区部署,不支持跨可用区部署,通常建议选择数据所在的区域
  • 集群启动通常在15分钟内可以开始进行数据处理
  • EMR允许使用磁性、SSD和 PIOPS SSD三种EBS卷。
  • 适用场景
    • 日志处理,点击流分析,基因学和生命科学

文件系统

HDFS

  • Hadoop标准文件系统
  • 所有数据都在多个实例中被复制保证持久性
  • HDFS可以利用EBS存储确保在关闭集群时不丢失数据
  • 非常适合于持久的集群

EMRFS

  • HDFS在AWS S3上的实现,将数据保存在S3中
  • 可以使用所有Hadoop生态的工具系统
  • 非常适合于瞬时集群

EMR NoteBooks

  • EMR Notebooks 提供基于 Jupyter Notebook 的托管环境,可供数据科学家、分析员和开发人员准备数据并使其可视化、与同伴协作、构建应用程序,并使用 EMR 群集执行交互分析。
  • 您可以使用 EMR Notebooks 构建 Apache Spark 应用程序,并且轻而易举地在 EMR 群集上运行交互查询。多个用户可以直接从控制台创建无服务器笔记本、将其挂载到现有的共享 EMR 群集,或直接从控制台提供至少 1 个节点的并立即开始使用 Spark 进行实验。

安全设置

  • EMR默认将设置两个EC2安全组: 主节点和从属节点

    • 主安全组

      • 定义一个端口用于与服务的通信
      • 打开的SSH端口,允许启动时指定的SSH密钥进入实例
      • 默认不允许被外部实例访问,但可设置
    • 从属安全组
      • 只允许与主实例进行交互
  • 默认使用SSL向S3传送数据
  • 可以支持对集群进行标记,最多10个标记,但不支持基于标记的IAM许可。
  • 使用IAM权限和角色控制对EMR的访问和控制
  • 可以设置允许非Hadoop用户将作业提交至集群的权限
  • 可以将EMR放入到私有VPC中实现额外的保护

AWS Data Pipeline

概念

  • 实现在指定时间间隔,在AWS资源和本地数据之间可靠地处理和移动数据
  • 您可以快速轻松地部署管道,无需分心管理日常数据操作,从而让您能够集中精力从该数据获取所需的信息。您只需为您的数据管道指定所需数据源、时间表和处理活动即可。
  • 与SWF相比,Data Pipeline 专门设计用于简化大多数数据驱动工作流程中常见的特定步骤。例如:在输入数据符合特定准备就绪标准后执行活动,轻松在不同数据存储之间复制数据,以及调度链接的转换。这种高度具体的侧重点意味着 Data Pipeline 工作流定义可以快速创建,并且无需代码或编程知识。
  • 定期访问存储数据,并对数据进行大规模处理,并且将结果转换为AWS服务

  • 利用Pipeline的定义安排和运行任务,可以每15分钟,每天,每周运行等
  • 数据节点是pipeline流水线读取和写入数据的位置,可以是S3,MySQL,Redshift等AWS或本地存储
  • Pipeline通常需要配合其他服务执行预定义的任务,如EMR,EC2等,并在执行完成后自动关闭该服务
  • Pipeline在编排的过程支持条件语句
  • 若某项活动失败,默认会不断重试,所以需要配置限制重试次数或未成功时采取的行动
  • 每个账户默认支持100个管道,单一管道中可以拥有100个对象,可以申请扩展

属性

  • 管道

    • 即 AWS Data Pipeline 资源,其中包含由执行业务逻辑所需的数据源、目的地和预定义或自定义数据处理活动所组成的关联数据链的定义。
  • 数据节点
    • 数据节点代表您的业务数据。例如,数据节点可以表示特定的 Amazon S3 路径。AWS Data Pipeline 支持表达式语言,使其更容易引用常态生成的数据。
  • 活动
    • 是 AWS Data Pipeline 代表您启动的操作,它是管道的一部分。示例活动包括 EMR 或 Hive 作业、复制、SQL 查询或命令行脚本。
  • 前提条件
    • 前提条件是指成熟度检查,可选择性地将其关联到数据源或活动。如果数据源具有前提条件检查,那么必须先成功完成检查,然后才能启动任何需要用到该数据源的活动。如果活动具有前提条件,那么必须先成功完成检查,然后才能运行活动。
  • 时间表
    • 定义管道活动运行的时间和服务预计的可使用数据的频率。可以选择时间表结束日期,在此时间后,AWS Data Pipeline 服务不执行任何活动。
    • 当您将时间表与活动关联起来后,活动就会按时间表运行。当您将时间表与数据源关联起来,就表示您告诉 AWS Data Pipeline 服务,您期望数据会按照该时间表更新。

适用场景

  • 非常适用于常规批处理的ETL流程,而不是连续数据流

Amazon Elastic Transcoder

  • 一种在线媒体转码的工具
  • 将视频从源格式转换到其他的格式和分辨率,以便在手机、平板、PC等设备上播放
  • 一般来说,将需要转码的媒体文件放在AWS S3的存储桶上,创建相应的管道和任务将文件转码为特定的格式,最后将文件输出到另一个S3的存储桶上面去。
  • 也可以使用一些预设的模板来转换媒体格式。
  • 可以配合Lambda函数,在有新的文件上传到S3后触发函数代码,执行Elastic Transcoder并自动进行媒体文件的转码。

Amazon Athena

  • Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 分析 Amazon S3 中的数据。Athena 没有服务器,因此您无需管理任何基础设施,且只需为您运行的查询付费。
  • Athena 简单易用。只需指向您存储在 Amazon S3 中的数据,定义架构并使用标准 SQL 开始查询就可在数秒内获取最多的结果。
  • 使用 Athena,无需执行复杂的 ETL 作业来为数据分析做准备。这样一来,具备 SQL 技能的任何人都可以轻松快速地分析大规模数据集。
  • 支持的数据格式包括 JSON,Apache Parquet, Apache ORC

Amazon Elasticsearch Service

  • Amazon Elasticsearch Service 是一项完全托管的服务,方便您部署、保护和运行大量 Elasticsearch 操作,且不用停机。
  • 该服务提供开源 Elasticsearch API、受托管的 Kibana 以及与 Logstash 和其他 AWS 服务的集成,支持您安全获取任何来源的数据,并开展实时搜索、分析和可视化。
  • 使用 Amazon Elasticsearch Service 时,您只需按实际用量付费,没有预付成本或使用要求。有了 Amazon Elasticsearch Service,您无需承担运营开销,便可获得所需的 ELK 堆栈。

AWS X-Ray

  • AWS X-Ray 可以帮助开发人员分析与调试分布式生产应用程序,例如使用微服务架构构建的应用程序。
  • 借助 X-Ray,您可以了解应用程序及其底层服务的执行方式,从而识别和排查导致性能问题和错误的根本原因。
  • X-Ray 可在请求通过应用程序时提供请求的端到端视图,并展示应用程序底层组件的映射。
  • 您可以使用 X-Ray 分析开发和生产中的应用程序,从简单的三层应用程序到包含上千种服务的复杂微服务应用程序。

原文地址:https://blog.51cto.com/wzlinux/2430893

时间: 2024-11-13 03:48:32

AWS 数据分析服务(十)的相关文章

你所不知道的AWS 云服务清单(71种)

导读 AWS,即亚马逊 Web 服务,是一个提供了一系列按使用计费的 web 服务的云平台. 它是迄今为止最为著名的云平台之一.由于其灵活性.有效性.弹性.可测量性和无须维护,所以有一些企业正逐步把他们的业务迁移到云端. 由于许多公司目前在使用这些服务,所以对于系统管理员和运维人员来说应该了解一下 AWS.认识 71 个 AWS 云服务的术语 ! 通过了解 AWS 世界中使用的术语开始你的 AWS 云服务使用生涯 ! 计算型服务 这是一个提供了虚拟服务器配置功能的服务,即所谓的云计算.它提供了包

利用Alluxio系统提升按需数据分析服务的性能

本文由南京大学顾荣.施军翻译整理自Alluxio公司技术博客,由Alluxio公司授权CSDN首发(联合),版权归Alluxio公司所有,未经版权所有者同意请勿转载. 1.场景问题分析 在很多大数据应用场景中,某些具体的处理问题通常只涉及到整体数据集的一个子集或部分数据.这导致长时间占用大规模集群的整体数据分析方式的资源有效利用率较低,并且总体代价较高,尤其在系统采用计算和存储并置(co-locate)部署架构的场景下各位严重.另外,在很多即席查询和计算应用中,数据的分析任务通常由上层用户零散地

电信行业数据分析服务(转)

电信行业数据分析服务(转) 转自https://www.douban.com/note/516353031/?type=rec&qq-pf-to=pcqq.group  数据分析服务 2015-09-10 09:55:19 上海天元项目数据分析师事务所,专业为企业编制各类项目报告和提供分析行业数据服务.联系电话:13917778657 1.网络管理和优化. (1)基础设施建设的优化.如利用数据分析实现基站和热点的选址以及资源的分配.可以通过分析话单和信令中用户的流量在时间周期和位置特征方面的分布

AWS携手上海嘉定政府推出首个联合孵化器 为创业公司拓展AWS云服务可用资源

2014年10月17日 AWS Activate创业加速计划为中国创业公司提供各种支持,包括AWS全球和中国区服务抵扣券.培训和开发者支持.同时,AWS携手上海嘉定政府成立首家联合孵化器,为创业公司提供整合的业务支持,包括免费的办公场所.设施.宿舍和一系列的政府优惠政策. 今天,我们很高兴和上海市嘉定区政府,联合宣布创梦上海嘉定AWS联合孵化器的正式发布.联合孵化器通过对AWS  Activate创业加速计划及嘉定区政府对创业公司支持资源的整合,为创业团队提供丰富的创业支持.AWS  Activ

AWS向中国有限预览客户推出多级别AWS支持服务

 2014年9月26日 在AWS中国(北京)区域有限预览服务开展的过程中,许多客户都提出了对AWS支持服务(AWS Support)的需求.AWS客户在向云端部署系统,日常运营维护以及关键性项目实施时,都需要快速响应.按需定制.不同层次,专业可信的的云技术支持服务.为了更好的服务参加有限预览服务的客户,我们今天宣布推出多个级别的AWS中文技术支持服务,分别是开发人员级别.商用级别和企业级服务. AWS技术支持(AWS Support)是快速响应客户需求的专业客户服务团队,配备经验丰富的技术支

中、小企业尝试使用 AWS 云服务的原因

亚马逊 AWS 目前提供超过 30 多个基于云的主机,计算,数据库和管理服务,它 在通用性和价格方面几乎是其他云服务厂商无法匹敌的. 不仅一些非常流行的站点已经在使用 AWS 的服务,如 Netflix, Reddit, and Spotify,也是许多初创公司值得依赖的工具和服务. 下面是总结的中.小企业必须要尝试使用亚马逊 AWS 云服务的 5 个原因: 1.可动态扩展的特性. 无论您是使用 AmazonS3 存储或带宽密集型数据服务,只需要支付您使用的部分,小企业可以支付小企业的价格,而规

AWS 存储服务(EBS, S3, EFS)详细介绍和对比

一.EBS 卷类型对比 参考文档: https://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/EBSVolumeTypes.html?shortFooter=truehttps://aws.amazon.com/cn/ebs/faqs/ 二.S3 存储类的性能 三.EFS 介绍 Amazon Elastic File System (Amazon EFS) 为基于 Linux 的工作负载提供简单.可扩展的弹性文件系统,可与 AWS 云服务

注册免费试用12个月的亚马逊AWS云计算服务

注册: 注册地址 点击页面中间的创建免费用户,进入下一步页面: 然后就是填写各种个人信息的页面了: 填写付款信息: 付款信息会进行一个电话验证,这里需要先填写对应的电话号码和验证码,然后点立刻呼叫我,提示音之后从手机键盘上输入提示的验证码就可以完成验证 验证登录完成后进入主界面: 选择所有服务->EC2,然后启动实例: 我选择的是Ubuntu Server 16.04 LTS (HVM), SSD Volume Type: 选择好实例类型然后点审核启动: 大专栏  注册免费试用12个月的亚马逊A

微服务-十二要素

前言 今天看"如何实现现代应用的快速落地"公开课,提到十二要素,之前文章也提到多次,这里统一汇总下: 十二要素 如今,软件通常会作为一种服务来交付,它们被称为网络应用程序,或"软件即服务"(SaaS)."十二要素应用程序"(12-Factor App)为构建如下的SaaS应用提供了方法论: 使用标准化流程自动配置,从而使新的开发者花费最少的学习成本加入这个项目: 和操作系统之间尽可能的划清界限,在各个系统中提供最大的可移植性: 适合部署在现代的云