Hadoop初学思维导图
1,Hadoop
··· Hadoop:
Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。
··· Hadoop生态圈:
Hadoop生态圈是一系列用来处理大数据的框架或组件,有Hadoop、Hive、Spark、HBase等。
2,HDFS
··· 组成:
HDFS采用主从结构,支持文件形式的数据;HDFS包括一个NameNode节点、若干个DataNode节点和一个Secondary NameNode节点,Hadoop2.2之后可以有多个NameNode节点。
··· NameNode:
NameNode作为主服务器,用来管理文件系统命名空间和客户端对文件的访问操作;NameNode是所有HDFS元数据的管理者,用户的数据不会经过NameNode;NameNode执行文件系统的命名空间,如打开、关闭、重命名文件或目录等,也负责数据块到具体DataNode的映射。存储文件的元数据,以及每个文件的块列表和块所在的DataNode。
··· DataNode:
DataNode管理存储的数据;从内部看,文件被分成若干个数据块,并保存在一组DataNode上;DataNode负责处理文件系统客户端的读写,并在NameNode的统一调度下进行数据库的创建、删除和复制工作。
··· Secondary NameNode:
用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。冷备份。
3,HDFS HA
··· 高可用HDFS,由于HDFS的NameNode存在单点故障,所以需要备份的NameNode。
1,备份的NameNode与活动的NameNode通过日志文件edit实现同步,并且同时只能有一个NameNode是active状态,active可以读写edit,standby只能读edit。热备份。
2,ZooKeeper 负责管理NameNode 的故障转移(状态切换)。每一个NameNode节点上都运行一个ZKFC进程(ZooKeeper的客户端),ZKFC负责向ZooKeeper 发送本机NameNode 的健康状况。
原文地址:https://www.cnblogs.com/shendeng23/p/12381100.html