Hadoop 新生报道（三） hadoop基础概念

　　一.NameNode，SeconderyNamenode，DataNode

　　NameNode，DataNode，SeconderyNamenode都是进程，运行在节点上。

　　1.NameNode：hadoop的主节点，保存HDFS的元数据信息

1.fsimage - 它是在NameNode启动时对整个文件系统的快照

2.edit logs - 它是在NameNode启动后，对文件系统的改动序列

　　2.SeconderyNamenode：职责是合并NameNode的edit logs到fsimage文件中，帮助NameNode

　　3.DataNode ：响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。NameNode 依赖来自每个 DataNode 的定期心跳（heartbeat）消息。每条消息都包含一个块报告，NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息，NameNode 将采取修复措施，重新复制在该节点上丢失的块。

　　一.HDFS相关概念　　

　　1.HDFS ： Hadoop分布式文件系统（Hadoop Distributed File System）

　　2.数据块：存储时为了方便传输和提高容错率，把文件分为多个数据块，hadoop1.x 是64M,hadoop2.x 是128M

　　3.复制因子：hdfs文件会在多个节点进行备份，默认数量为3（现在配置的是伪分布式，只有一个）

　　在hdfs-site.xml 中配置

　　 <name>dfs.replication</name>

　　</property>

　　4.fsimage文件： FSImage文件是HDFS中名字节点NameNode上文件/目录元数据在特定某一时刻的持久化存储文件。

　　5.edits文件：操作日志文件，由NameNode或者SeconderyNamenode读取对fsimage文件进行更改

　　6.安全模式：安全模式是hadoop的一种保护机制，用于保证集群中的数据块的安全性。

　　当集群启动的时候，会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。

　　这时，不允许客户端进行任何修改文件的操作,包括上传文件，删除文件，重命名，创建文件夹等操作。

　　正常情况下，安全模式会运行一段时间自动退出的，只需要我们稍等一会就行了，到底等多长时间呢，我们可以通过50070端口查看安全模式退出的剩余时间

　　三.常见HDFS shell命令

　　1.查看目录 hadoop fs -ls hdfs目录(根目录为 /)

　　2.创建目录 hadoop fs -mkdir -p hdfs路径（-p是可以创建多级目录）

　　3.删除目录 hadoop fs -rmdir hdfs目录（只能删除空目录）

　　4.删除文件 hadoop fs -rm -r hdfs路径（加-r可循环删除非空目录）

　　5.上传文件 hadoop fs -put 文件在本机的路径 hdfs路径

　　6.下载文件 hadoop fs -get 文件在hdfs路径文件在本机要放置的路径

　　7.查看文件 hadoop fs -cat 文件在hdfs的路径

　　8.查看健康模式 hdfs dfsadmin -safemode get

时间： 2024-07-31 11:58:46

Hadoop 新生报道（三） hadoop基础概念的相关文章

hadoop分布式存储（1）-hadoop基础概念（毕业设计）

hadoop是一种用于海量数据存储.管理.分析的分布式系统.需要hadoop需要储备一定的基础知识:1.掌握一定的linux操作命令 2.会java编程.因此hadoop必须安装在有jdk的linux环境中. linux环境可以用以下方式获取:1.安装linux操作系统 2.安装linux虚拟机 3.在阿里云.UniteStack上租一个云主机,创建linux环境,然后用putty去链接. linux下jdk的安装:百度即可. 与hadoop相关联的一些基础知识: Google大数据技术:

Hadoop 系列（一）基本概念

Hadoop 系列(一)基本概念一.Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储. 从其定义就可以发现,它解決了两大问题:大数据存储.大数据分析.也就是 Hadoop 的两大核心:HDFS 和 MapReduce. HDFS(Hadoop Distributed File System) :是可扩展.容错.高性能的分布式文件系统,异步复制,一次写入多次读

Hadoop 2.x从零基础到挑战百万年薪第一季

鉴于目前大数据Hadoop 2.x被企业广泛使用,在实际的企业项目中需要更加深入的灵活运用,并且Hadoop 2.x是大数据平台处理的框架的基石,尤其在海量数据的存储HDFS.分布式资源管理和任务调度YARN及分布式计算框架MapReduce.然而当前众多书籍和视频教程资料中,没有一套完整的.深入浅出的.实战性操作强的一套资料,一此种情况下,结合鄙人多年实际项目经验,以项目中使用为主线,编纂筹划此套Hadoop 2.x从零基础到项目实战的课程,带领大家从零基础开始上手,到如何理解HDFS.

Hadoop学习第一次：hadoop概念

1.大数据学习方向:一是系统建设技术,二,海量数据应用. 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架.目前可以先学习这个.但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle.为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,出来速度慢,如果又一种硬件技术,可以很快地处理海量数据,性能上能满足需求,那么集中式架构优于分布式架构,因为集中式架构稳定,运维压力小.现在的集中式架构要么性能达不到要求,要么就是过于昂贵.我期待一

《OD学hadoop》第三周0709

一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key

[Hadoop] Hadoop学习笔记之Hadoop基础

1 Hadoop是什么? Google公司发表了两篇论文:一篇论文是“The Google File System”,介绍如何实现分布式地存储海量数据:另一篇论文是“Mapreduce:Simplified Data Processing on Large Clusters”,介绍如何对分布式大规模数据进行处理.Doug Cutting在这两篇论文的启发下,基于OSS(Open Source software)的思想实现了这两篇论文中的原理,从而Hadoop诞生了. Hadoop是一种开源的适合

Hadoop学习问题记录之基础篇

目的记录学习hadoop过程中遇到的基础问题,无关大小.无关困扰时间长短. 问题一全分布式环境中运行mapred程序,报异常:java.net.NoRouteToHostException: 没有到主机的路由在全分布式环境中运行mapred程序,报异常:java.net.NoRouteToHostException: 没有到主机的路由,但同样的配置.同样的程序,在伪分布式环境中是没有问题的.具体异常信息如下: 2019-09-14 15:37:44,018 INFO mapreduce.J

Hadoop学习笔记三：分布式hadoop部署

前语:如果看官是个比较喜欢使用现成软件的,比较推荐使用quickhadoop,这个使用参照官方文档即可,是比较傻瓜式的,这里不做介绍.本文主要是针对自己部署分布式hadoop. 1.修改机器名 [[email protected] root]# vi /etc/sysconfig/network 将HOSTNAME=*** 一栏改成适当的名称,笔者两台机器采用HOSTNAME=Hadoop00,HOSTNAME=Hadoop01这种方式. 2.修改IP,网关,掩码等 vim /etc/sysco

Hadoop新生报到（一） hadoop2.6.0伪分布式配置详解

首先先不看理论,搭建起环境之后再看: 搭建伪分布式是为了模拟环境,调试方便. 电脑是win10,用的虚拟机VMware Workstation 12 Pro,跑的Linux系统是centos6.5 ,装的hadoop2.6.0,jdk1.8: 1.准备工作准备工作:把JDK和Hadoop安装包上传到linux系统(hadoop用户的根目录) 系统环境:IP:192.168.80.99, linux用户: root/123456,hadoop/123456 主机名:node 把防火墙关闭,roo