Hadoop是什么?
1)Hadoop是一个分布式计算平台,程序员可以在不需要知道底层结构的情况下实现集群并行运算;
2)Hadoop不只是一个软件或者系统,它代表的是一个生态圈,一个做大数据分析计算的生态圈。
3)Hadoop核心是HDFS和MapReduce。HDFS(Hadoop Distributed File System)是一个以流为读取写入形式的分布式文件系统,特点是高容错(数据多副本存储)、高效(多节点并行处理)、高拓展(节点自由拓展)、低成本(HDFS是用Java写的,不存在平台不兼容也不会对机器存在特殊的要求)。MapReduce是一个编程/算法模型写入。
4)命名节点(Name node)只有一个,它就是控制器/调度器(Controller)。它只存储元数据,不存储业务数据。它负责告诉客户端要去哪里拿数据和把数据写入到哪三台数据节点上。它负责把HDFS命名空间的信息写入到叫FsImage文件里面,EditLog记录日志,这两个文件都在命名节点的机器上。为了解决单点失败问题,需要有另外的技术实现副本复制。其他的就是数据节点(Data node),用于存储数据的副本。68MB一个块这样存储。用心跳线(heartbeat)来报告给命名节点自己的健康情况。
时间: 2024-10-21 05:44:13