大数据原理架构（学习整理）

前面介绍的废话省略，记录直接的一些知识，方便了解。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

还有一个Hive，很重要！这是一个传统的SQL到MapReduce的映射器，面向传统的数据库工程师。但是不支持全部SQL。还有一个子项目叫HBase，一个非关系数据库，NoSQL数据库，数据是列存储的，提高响应速度，减少IO量，可以做成分布式集群。

ZooKeeper负责服务器节点和进程间的通信，是一个协调工具，因为Hadoop的几乎每个子项目都是用动物做logo，故这个协调软件叫动物园管理员。

学到这里，我了解到 hadoop的核心的几个东西就是 hdfs mapreduce hive hbase zookkeeper。

后面我看到了hadoop里面某某东西的后台进程，看到后台进程，我就知道学习hadoop有戏了，要入门了，我爱后台进程。

HDFS体系：

namenode：

是HDFS的守护程序（一个核心程序），对整个分布式文件系统进行总控制，会纪录所有的元数据分布存储的状态信息，比如文件是如何分割成数据块的，以及这些数据块被存储到哪些节点上，还有对内存和I/O进行集中管理，用户首先会访问Namenode，通过该总控节点获取文件分布的状态信息，找到文件分布到了哪些数据节点，然后在和这些节点打交道，把文件拿到。故这是一个核心节点。

自己补充一点，既然是核心节点，肯定不能单点，对不对？否则可能会使整个集群奔溃，对不对？对不对？

secondary namenode：

辅助名称节点，或者检查点节点，它是监控HDFS状态的辅助后台程序，可以保存名称节点的副本，故每个集群都有一个，它与NameNode进行通讯，定期保存HDFS元数据快照。NameNode故障可以作为备用NameNode使用，目前还不能自动切换。但是功能绝不仅限于此。

datanode：

叫数据节点，每台从服务器节点都运行一个，负责把HDFS数据块读、写到本地文件系统。

mapreduce体系：（主要两个后台进程JobTracker&TaskTracker）

JobTracker：

叫作业跟踪器，运行到主节点（Namenode）上的一个很重要的进程，是MapReduce体系的调度器。用于处理作业（用户提交的代码）的后台程序，决定有哪些文件参与作业的处理，然后把作业切割成为一个个的小task，并把它们分配到所需要的数据所在的子节点。

TaskTracker：

叫任务跟踪器，MapReduce体系的最后一个后台进程，位于每个slave节点上，与datanode结合（代码与数据一起的原则），管理各自节点上的task（由jobtracker分配），每个节点只有一个tasktracker，但一个tasktracker可以启动多个JVM，用于并行执行map或reduce任务，它与jobtracker交互通信，可以告知jobtracker子任务完成情况。

Master与Slave

　　Master节点：运行了Namenode、或者Secondary Namenode、或者Jobtracker的节点。还有浏览器（用于观看管理界面），等其它Hadoop工具。Master不是唯一的！

　　Slave节点：运行Tasktracker、Datanode的机器。

时间： 2024-10-26 04:53:07

大数据原理架构（学习整理）

大数据原理架构（学习整理）的相关文章

需要同时掌握AVA和Linux，才可以继续大数据课程的学习

大数据企业架构师精品课程（大数据篇）

hadoop大数据平台架构之DKhadoop详解

零基础如何转行大数据？系统学习路线在此

了解大数据，才能更好地学习大数据（附学习路线）

知名大厂如何搭建大数据平台&架构

大数据平台架构设计探究

深入浅出解析大数据平台架构

大数据Lambda架构