数据湖(Data Lake)前世今生解析(上)

EMC收购视频存储设备厂商Isilon
Systems完善EMC在分布式Scale-Out架构NAS技术方面的不足,近几年isilon在媒资、大数据和HPC场景得到客户的一致认可,也在去年和另外一个产品线Povital
Hadoop推出了数据湖解决方案,应对互联网浪潮下客户对半结构化和非结构化数据的处理、存储需求。

在讲数据湖之前,我们一起在回顾下数据库和数据仓库。数据库指在线交易数据系统、一般指OLTP事务处理,数据库中的数据也是进行了分类的;数据仓库一般指通过ETL工具抽取分类中的离线数据,主要用作进行后续分析、或进一步分类为数据集市。

数据湖

数据湖是指结构化和非结构化大数据系统,由于这些数据再初始很难定义其用途,所以在使用前很难将其有效分类,但是这些数据又可以被原地分析、计算和存储的系统。数据湖也改变了用户使用数据的方式,数据湖整合了结构化、非结构化数据的分析和存储,用户不必为海量不同的数据构建不同数据库、数据仓库,因为通过数据湖就可以完成或实现不同数据仓库的功能。未来数据湖作为一种云服务随时按需满足对不同数据的分析、处理和存储需求,数据湖本身也是通过云的方式来部署到虚拟机、物理环境或云上。

Isilon的数据湖基础

Scale
out横向扩展能力提供了构建数据湖的关键能力,满足海量数据存储需要;同时isilon存储(HDFS)与计算(Hadoop)分开部署,满足计算按需扩展需求。

通过OneFS系统引擎提供丰富的软件特性如
SmartPool、SmartDedupe、多副本(EC)等实现数据流动、空间高效利用和数据可靠性;并实现和VMware虚拟化平台VAAI、VASA和SRM无缝集成,实现数据湖数据在虚拟和物理环境间进行高效数据流动。

支持丰富的多种访问协议接口如:CIFS、NFS、NDMP、Swift消除了数据孤岛,在一套存储中实现不同数据存储和共享。

通过HDFS实现和不同数据服务平台对接,目前已经支持多个版本Hadoop计算平台,如Pivotal、Cloudera、HortonWorks和Apache
Hadoop等。

Isilon和Pivotal数据湖方案

Greenplum是EMC收购的一家专注数据库领域的公司,主要包括Share Nothing MPP数据库 Greenplum
Database,支持和HDFS和OneFS对接的Greenplum Hadoop,Greenplum DCA一体机,
结合虚拟机实现多租户的数据仓库Greenplum Chorus和Greenplum Analytics
分析咨询服务。EMC提供了由GemFire/SQLFire实时计算和GreenPlum
DB组成的传统独立大数据计算方案。
Pivotal产品线为了迎合非结构化大数据的需求,提供Greenplum( HAWQ
)和hadoop集成提供更强大处理能力的大数据方案。通过DBMS嫁接到Hadoop,使得Hadoop具备结构化数据能力,通过gNet并行数据流引擎提升并行能力、流水化能力,在执行查询等操作时协调相关节点间业务流,移动数据,收集结果等。
Pivotal
HD大数据方案由GemFire XD( 由GemFire/ SQLFire发展而来 )+HAWQ( 由Greenplum DB发展而来)+ Pivotal
HD引擎+Spring XD(分布式数据、数据导入、批处理、数据导出和流式处理)等组建组成。

Pivotal HD基于Apache Hadoop优化构建而成,为数据湖方案提供了数据处理能力。通过Job Tracker调度并行任务,并由Task
Tracker有效完成计算任务、返回计算结果。计算的中间值和结果实现HDFS本地保存。Pivotal HD通过HAWQ和GemFile
XD也提供了结构化处理能力和实时数据处理能力。

Isilon提供了HDFS存储接口实现和Pivotal HD对接,通过Name Node和Data
Node实现数据存储和高效读取,解决海量数据扩展;同时可以通过Isilon OneFS提供的丰富软件特性和多副本(EC算法)提高数据湖的可靠性。



温馨提示:

请搜索“ICT_Architect”关注公众号,获取更多精彩内容。

时间: 2024-08-08 21:10:12

数据湖(Data Lake)前世今生解析(上)的相关文章

BI、数据仓库、数据湖和数据中台内涵与差异

http://km.ciozj.com/Detail.Aspx?AI=98314&CI=2 随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI).数据仓库.数据湖.数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识. 一 数据仓库 数据仓库平台逐步从BI报表为主到分析为主.到预测为主.再到操作智能为目标. 商务智能(BI,Business In

【免费公测中】为数据赋予超能力,阿里云重磅推出Serverless数据分析引擎-Data Lake

摘要: 近日,阿里云重磅推出Serverless数据分析引擎-Data Lake Analytics,Data Lake Analytics,帮助更多不具备分析能力的存储服务,赋予其分析的能力. 近日,阿里云重磅推出Serverless数据分析引擎-Data Lake Analytics,Data Lake Analytics,帮助更多不具备分析能力的存储服务,赋予其分析的能力. 从生活中的购物交易,到工业上的生产制造,再到社交网络媒体信息.企业化管理决策等等,大数据成为当前经济社会最重要的前进

基于Data Lake Analytics的Serverless SQL大数据分析

摘要: TableStore(简称OTS)是阿里云的一款分布式表格系统,为用户提供schema-free的分布式表格服务.随着越来越多用户对OLAP有强烈的需求,我们提供在表格存储上接入Data Lake Analytics(简称DLA)服务的方式,提供一种快速的OLAP解决方案. 背景介绍TableStore(简称OTS)是阿里云的一款分布式表格系统,为用户提供schema-free的分布式表格服务.随着越来越多用户对OLAP有强烈的需求,我们提供在表格存储上接入Data Lake Analy

构建企业级数据湖?Azure Data Lake Storage Gen2不容错过(上)

背景 相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 数据湖的核心功能,简单地可以分为数据存储与数据查询计算两个部分,在云端可以有多种的实现选择.在之前的文章中,我们曾介绍Azure上Azure Data Lake Storage (ADLS Gen1)和Azure Data Lake Analytics (ADLA)这一对可配合使用的服务.这对黄金搭档正是为数据湖而生

4大特点解析华为云数据湖“黑科技”

4大特点解析华为云数据湖"黑科技"如果有人问数据湖是什么,我会告诉他们,是"桶装水"的集合.随着企业业务的发展,数据出现井喷,数据量呈几何增长,数据来源和类型更加多元化.传统数据仓库就如同"桶装水商店",已经承载不了全部水体,因此需要一个可以满足存储需求的,新的架构作为大数据的支撑.这就是数据湖.它汇聚不同数据源的溪流,包括大量无序的非结构化数据(文本.图像.声音.网页等).我们把它倒入数据湖,然后开始探索该数据.我们希望这是一个包含所有数据的,

Data Lake Analytics,大数据的ETL神器!

0. Data Lake Analytics(简称DLA)介绍 数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake.基于数据湖做分析,可以不用做任何ETL.数据搬迁等前置过程,实现跨各种异构数据源进行大数据关联分析,从而极大的节省成本和提升用户体验.关于Data Lake的概念. 终于,阿里云现在也有了自己的数据湖分析产品:https://www.aliyun.com/product/datalakeanalyt

为什么你的安全数据湖项目会失败

真搞不懂,一些团队由于某些原因居然认为他们可以建立一个安全数据湖和/或他们自己的大数据安全分析工具.让我来告诉你们会发生什么--失败. 提示一下数据沼泽笑话.想想数据浮渣.讨论一下在数据池里撒尿.结果是一样的--不会成功. 好吧,让我缓和一点来说说--0.1%的人将会成功(即使这种成功只是一定程度上的).(这个百分比是近似值,不是为了提供数据,意在增加这个"职位"戏剧性的影响.) 为什么我会对此如此坚持呢?在我们的UEBA研究期间,我们遇到了几个正在从DIY/定制安全分析迁移到COTS

Data Lake Analytics账号和权限体系详细介绍

一.Data Lake Analytics介绍数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake.基于数据湖做分析,可以不用做任何ETL.数据搬迁等前置过程,实现跨各种异构数据源进行大数据关联分析,从而极大的节省成本和提升用户体验. 阿里云数据湖分析产品Data Lake Analytics(简称DLA):https://www.aliyun.com/product/datalakeanalytics产品文档:h

腾讯大数据之TDW计算引擎解析——Shuffle

腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程-Shuffle.本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较. 腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hive进行构建,并且根据公司数据量大.计算复杂等特定情况进行了大量优化和改造,目前单集群最大规模达到5600台,每日作