数据湖(Data Lake)前世今生解析(上)

EMC收购视频存储设备厂商Isilon
Systems完善EMC在分布式Scale-Out架构NAS技术方面的不足，近几年isilon在媒资、大数据和HPC场景得到客户的一致认可，也在去年和另外一个产品线Povital
Hadoop推出了数据湖解决方案，应对互联网浪潮下客户对半结构化和非结构化数据的处理、存储需求。

在讲数据湖之前，我们一起在回顾下数据库和数据仓库。数据库指在线交易数据系统、一般指OLTP事务处理，数据库中的数据也是进行了分类的；数据仓库一般指通过ETL工具抽取分类中的离线数据，主要用作进行后续分析、或进一步分类为数据集市。

数据湖

数据湖是指结构化和非结构化大数据系统，由于这些数据再初始很难定义其用途，所以在使用前很难将其有效分类，但是这些数据又可以被原地分析、计算和存储的系统。数据湖也改变了用户使用数据的方式，数据湖整合了结构化、非结构化数据的分析和存储，用户不必为海量不同的数据构建不同数据库、数据仓库，因为通过数据湖就可以完成或实现不同数据仓库的功能。未来数据湖作为一种云服务随时按需满足对不同数据的分析、处理和存储需求，数据湖本身也是通过云的方式来部署到虚拟机、物理环境或云上。

Isilon的数据湖基础

Scale
out横向扩展能力提供了构建数据湖的关键能力，满足海量数据存储需要；同时isilon存储（HDFS）与计算（Hadoop）分开部署，满足计算按需扩展需求。

通过OneFS系统引擎提供丰富的软件特性如
SmartPool、SmartDedupe、多副本（EC）等实现数据流动、空间高效利用和数据可靠性；并实现和VMware虚拟化平台VAAI、VASA和SRM无缝集成，实现数据湖数据在虚拟和物理环境间进行高效数据流动。

支持丰富的多种访问协议接口如：CIFS、NFS、NDMP、Swift消除了数据孤岛，在一套存储中实现不同数据存储和共享。

通过HDFS实现和不同数据服务平台对接，目前已经支持多个版本Hadoop计算平台，如Pivotal、Cloudera、HortonWorks和Apache
Hadoop等。

Isilon和Pivotal数据湖方案

Greenplum是EMC收购的一家专注数据库领域的公司，主要包括Share Nothing MPP数据库 Greenplum
Database，支持和HDFS和OneFS对接的Greenplum Hadoop，Greenplum DCA一体机，
结合虚拟机实现多租户的数据仓库Greenplum Chorus和Greenplum Analytics
分析咨询服务。EMC提供了由GemFire/SQLFire实时计算和GreenPlum
DB组成的传统独立大数据计算方案。
Pivotal产品线为了迎合非结构化大数据的需求，提供Greenplum( HAWQ
)和hadoop集成提供更强大处理能力的大数据方案。通过DBMS嫁接到Hadoop,使得Hadoop具备结构化数据能力，通过gNet并行数据流引擎提升并行能力、流水化能力，在执行查询等操作时协调相关节点间业务流，移动数据，收集结果等。
Pivotal
HD大数据方案由GemFire XD( 由GemFire/ SQLFire发展而来 )+HAWQ( 由Greenplum DB发展而来)+ Pivotal
HD引擎+Spring XD(分布式数据、数据导入、批处理、数据导出和流式处理)等组建组成。

Pivotal HD基于Apache Hadoop优化构建而成，为数据湖方案提供了数据处理能力。通过Job Tracker调度并行任务，并由Task
Tracker有效完成计算任务、返回计算结果。计算的中间值和结果实现HDFS本地保存。Pivotal HD通过HAWQ和GemFile
XD也提供了结构化处理能力和实时数据处理能力。

Isilon提供了HDFS存储接口实现和Pivotal HD对接，通过Name Node和Data
Node实现数据存储和高效读取，解决海量数据扩展；同时可以通过Isilon OneFS提供的丰富软件特性和多副本（EC算法）提高数据湖的可靠性。

温馨提示：

请搜索“ICT_Architect”关注公众号，获取更多精彩内容。

时间： 2025-01-12 07:04:23

数据湖(Data Lake)前世今生解析(上)

数据湖(Data Lake)前世今生解析(上)的相关文章

BI、数据仓库、数据湖和数据中台内涵与差异

【免费公测中】为数据赋予超能力，阿里云重磅推出Serverless数据分析引擎-Data Lake

基于Data Lake Analytics的Serverless SQL大数据分析

构建企业级数据湖？Azure Data Lake Storage Gen2不容错过（上）

4大特点解析华为云数据湖“黑科技”

Data Lake Analytics，大数据的ETL神器！

为什么你的安全数据湖项目会失败

Data Lake Analytics账号和权限体系详细介绍

腾讯大数据之TDW计算引擎解析——Shuffle