hadoop生态系统介绍

hadoop生态系统如下图所示:

HDFS:

HDFS(Hadoop Distributed File System)是分布式文件系统,是针对谷歌开发的分布式文件系统GFS(Google File System)的开源实现,是Hadoop两大核心组成部分之一。

HDFS有NameNodeDataNode两部分,NameNode是整个文件系统目录,基于内存存储,存储的是一些文件的详细信息,比如文件名、文件大小、创建时间、文件位置等,有且仅有一个;DataNode存储文件的数据信息,也就是文件本身,不过是分割后的小文件。

HDFS是一种底层数据存储方式。Hive与Hbase的数据一般都存储在HDFS上,HDFS为他们提供高可靠性的底层存储支持。

HBase:

HBase是针对谷歌BigTable的开源实现,是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。需要注意的是,HBase可以使用本地文件系统而不用HDFS作为底层数据存储方式,不过为了提高数据可靠性和系统的健壮性,发挥HBase处理大数据量等功能,一般都使用HDFS作为HBase的底层数据存储方式

HBase的运行建立在hadoop上,在hadoop生态系统中,HDFS为HBase提供了高可靠性的底层存储支持,MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS(关系型数据库)数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。

HBase是一个开源的Not-Only-SQL的数据库,像其他数据库一样提供随即读写功能。HDFS最适于执行批次分析,而不能满足实时需要,HBase能够处理大规模数据,它不适于批次分析,但它可以向Hadoop实时地调用数据。如果需要实时访问一些数据,就把它存入HBase。

下面再以表格的形式对HDFS和HBase作一个比较:

原文地址:https://www.cnblogs.com/zyb993963526/p/10222976.html

时间: 2024-10-14 06:56:15

hadoop生态系统介绍的相关文章

安装高可用Hadoop生态 (一 ) 准备环境

为了学习Hadoop生态的部署和调优技术,在笔记本上的3台虚拟机部署Hadoop集群环境,要求保证HA,即主要服务没有单点故障,能够执行最基本功能,完成小内存模式的参数调整. 1.    准备环境 1.1. 规划 克隆3台服务器,主机名和IP如下 主机名 IP 软件 hadoop 192.168.154.128 原始虚拟机用于克隆 hadoop1 192.168.154.3 Zookeeper,journalnode Namenode, zkfc, Resourcemanager hadoop2

micro:bit 软件生态系统介绍

micro:bit 软件生态系统介绍 这里有大量的软件平台及工具使得许多microbit 计划顺利的进行,这篇文章只是做概略介绍而希望要进一步了解可以到不同计划的专页得到更多的数据. Microbit Shop Overview High Level Programming Languages 高阶程序语言 Compiled Languages 编译语言 Interpreted Langauges 直译语言 Coding environments and IDEs 程序环境及整合接口 From

关于Hadoop生态中的HA方案的一点思考

在给学生授课和搭建Hadoop生态实验环境的过程中,我发现无论是网络上的参考资料.还是来自大数据服务功供应商的运维文档,给出Hadoop的HA解决方案都如出一辙--使用 ZooKeeper 加 Quorum Journal Manager 方案. 诚然,这一方案久经考验,是十分成熟的可靠方案.与NFS方案相比较,它解除了大量写场景下NFS仅支持单个共享编辑目录的系统可用性限制:与Federation方案相比较,则较好地解决了单个joint-namespace中的单点故障问题,因为篱笆内的各nam

安装高可用Hadoop生态 (二) 安装Zookeeper

2.    安装Zookeeper 2.1. 解压程序 ※ 3台服务器分别执行 tar -xf ~/install/zookeeper-3.4.9.tar.gz -C/opt/cloud/packages ln -s /opt/cloud/packages/zookeeper-3.4.9 /opt/cloud/bin/zookeeper ln -s /opt/cloud/packages/zookeeper-3.4.9/conf /opt/cloud/etc/zookeeper mkdir -p

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

z摘自:http://www.linuxidc.com/Linux/2014-03/98978.htm hadoop生态圈 Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护.不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive.:) Pig是一种数据流语言,用来快速轻松的处理巨大的数据. Pig包含两个部分:Pig Interface,Pig Latin. Pig可

hadoop生态搭建(3节点)-04.hadoop配置

如果之前没有安装jdk和zookeeper,安装了的请直接跳过 # https://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html # ==================================================================安装 jdk mkdir -p /usr/java tar -zxvf ~/jdk-8u111-linux-x64

hadoop生态搭建(3节点)-06.hbase配置

# http://archive.apache.org/dist/hbase/1.2.4/ # ==================================================================安装 hbase tar -zxvf ~/hbase-1.2.4-bin.tar.gz -C /usr/local rm –r ~/hbase-1.2.4-bin.tar.gz # 配置环境变量# =====================================

hadoop生态搭建(3节点)-07.hive配置

# http://archive.apache.org/dist/hive/hive-2.1.1/ # ==================================================================安装 hive tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/local mv /usr/local/apache-hive-2.1.1-bin /usr/local/hive-2.1.1 rm –r ~/apach

hadoop生态搭建(3节点)-10.spark配置

# https://www.scala-lang.org/download/2.12.4.html# ==================================================================安装 scala tar -zxvf ~/scala-2.12.4.tgz -C /usr/local rm –r ~/scala-2.12.4.tgz # http://archive.apache.org/dist/spark/spark-2.3.0/ # ==