Amazon Redshift and Massively Parellel Processing

Today, Yelp held a tech talk in Columbia University about the data warehouse adopted by Yelp.

Yelp used Amazon Redshift as data warehouse.

There are several features for Redshift:

1. Massively Parellel Processing

2. SQL access

3. Column-based Datastore

Benefits are:

1. Data is structured, accessible and well documented.
2. Architecture allows for easy extensibility and sharing across teams.
3. Allows use of entire SQL-compatible tool ecosystem.

Details:

Massively Parellel Processing (MMP)

Traditional BigData always uses Hadoop + MapReduce. MapReduce‘s native control mechanism is Java code (to implement the Map and Reduce logic), whereas MPP products are queried with SQL(Structural Query Language). You can refer detail here.

Below is the structure for implementing MMP.

Similarly, Data is distributed across each segment database to achieve data and processing parallelism. This is achieved by creating a database table with DISTRIBUTED BY clause. By using this clause data is automatically distributed across segment databases. (referrence: Introduction to MMP)

Typical query sentence in MMP

Column-based Datastore

Enables sparse table definitions
Enables compact storage
Improve scanning/filtering

(Benefits: wiki)

Column-based Datastore

  1. Column-oriented organizations are more efficient when an aggregate needs to be computed over many rows but only for a notably smaller subset of all columns of data, because reading that smaller subset of data can be faster than reading all data.
  2. Column-oriented organizations are more efficient when new values of a column are supplied for all rows at once, because that column data can be written efficiently and replace old column data without touching any other columns for the rows.
  3. Row-oriented organizations are more efficient when many columns of a single row are required at the same time, and when row-size is relatively small, as the entire row can be retrieved with a single disk seek.
  4. Row-oriented organizations are more efficient when writing a new row if all of the row data is supplied at the same time, as the entire row can be written with a single disk seek.

In practice, row-oriented storage layouts are well-suited for OLTP-like workloads which are more heavily loaded with interactive transactions. Column-oriented storage layouts are well-suited for OLAP-like workloads (e.g., data warehouses) which typically involve a smaller number of highly complex queries over all data (possibly terabytes).

时间: 2024-12-06 16:37:39

Amazon Redshift and Massively Parellel Processing的相关文章

amazon redshift 分析型数据库特点——本质还是列存储

Amazon Redshift 是一种快速且完全托管的 PB 级数据仓库,使您可以使用现有的商业智能工具经济高效地轻松分析您的所有数据.从最低 0.25 USD 每小时 (不承担任何义务) 直到每年每 TB 1,000 USD (PB 级),成本不到传统解决方案的十分之一.客户通常进行 3 倍压缩,也就是将其成本降低到每年每 TB (未压缩) 333 USD. 问:与最传统的数据仓库存储及分析用数据库相比,Amazon Redshift 的性能如何? Amazon Redshift 使用各种创新

FineBI学习系列之FineBI与Amazon Redshift数据连接(图文详解)

不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 http://help.finebi.com/http://help.finebi.com/doc-view-570.html 目录: 1.描述 2.操作 1.描述 Amazon Redshift是一种快速且完全托管的 PB 级数据仓库,与传统的数据仓库仓储及分析用数据库相比具有列式数据存储.高级压缩.大规模并行处理(MPP)等优点.本章我们将介绍如何在FineBI中连接Amazon Redshift数据库. 2.操作 2.1 配置信

Amazon Redshift数据迁移到MaxCompute

Amazon Redshift 中的数据迁移到MaxCompute中经常需要先卸载到S3中,再到阿里云对象存储OSS中,大数据计算服务MaxCompute然后再通过外部表的方式直接读取OSS中的数据.如下示意图: 前提条件本文以SQL Workbench/J工具来连接Reshift进行案例演示,其中用了Reshift官方的Query editor发现经常报一些奇怪的错误.建议使用SQL Workbench/J. 下载Amazon Redshift JDBC驱动程序,推荐4.2 https://s

AWS Redshift ETL的几个性能最佳实践

Amazon Redshift 是一个支持SQL查询的.快速.可扩展的列式存储数据库,它支持PB级的数量查询,是适用于企业级的数据仓库.同时Redshift支持大规模并发查询.支持结果集缓存,响应查询时间最快至亚秒,比起其他数据仓库快将近十倍.借助 Redshift,您的等待时间更少,可将更多时间用于获取数据见解. ETL在计算机领域是一个很流行的概念,意指将数据从一个或多个源头复制到目标系统的一个过程,其中包含三个步骤:1,Extract 从数据源中选择/提取需要导出的数据2,Transfor

Amazon Cognito 流

Amazon Cognito 流让开发人员能够控制和了解他们存储在 Amazon Cognito 中的数据.开发人员现在可以配置 Kinesis 流,以便在数据更新和同步时接收事件.Amazon Cognito 可以实时向您拥有的 Kinesis 流推送每个数据集更改. 使用 Amazon Cognito 流,您可以将所有的同步数据移动到 Kinesis,然后将其流式传输到数据仓库工具(如 Amazon Redshift),供进一步分析. 原文地址:https://www.cnblogs.com

Amazon Kinesis Data Streams 术语和概念

Kinesis Data Streams 高级别架构 下图演示 Kinesis Data Streams 的高级别架构.创建器会持续将数据推送到 Kinesis Data Streams,并且使用者 可实时处理数据.使用者(如在 Amazon EC2 上运行的自定义应用程序或 Amazon Kinesis Data Firehose 传输流)可以使用 Amazon DynamoDB.Amazon Redshift 或 Amazon S3 等 AWS 服务存储其结果. Kinesis Data S

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose 是一个完全托管的服务,用于将实时流数据传输到目标,例如,Amazon Simple Storage Service (Amazon S3).Amazon Redshift.Amazon Elasticsearch Service (Amazon ES) 和 Splunk.Kinesis Data Firehose 与 Kinesis Data Streams.Kinesis Video Streams 和 Amazon Kinesis D

启用版本控制后,Amazon S3 对存储桶请求的 HTTP 503 响应显著增加

如果您注意到启用版本控制后,Amazon S3 对存储桶的 PUT 或 DELETE 对象请求的 HTTP 503 慢速响应数量显著增加,那么存储桶中可能有一个或多个对象有数以百万计的版本.如果您的对象有数以百万计的版本,Amazon S3 会自动限制对该存储桶的请求,以防止客户的请求流量过多,但也可能会妨碍对该存储桶的其他请求. 要确定哪些 S3 对象有数以百万计的版本,可以使用 Amazon S3 清单工具.清单工具可以生成一份报告,提供存储桶中对象的平面文件列表.有关更多信息,请参阅 Am

开源大数据查询分析引擎现状

引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS.Map-Reduce.Bigtable被称为云计算底层技术三大基石.GFS.Map-Reduce技术直接支持了Apache Hadoop项目的诞生.Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位.FaceBook的Hive项目是建立在Hadoop上的数据仓库基础构架,提供了一系列