Hadoop 新生报道(三) hadoop基础概念

  一.NameNode,SeconderyNamenode,DataNode

  NameNode,DataNode,SeconderyNamenode都是进程,运行在节点上。

  1.NameNode:hadoop的主节点, 保存HDFS的元数据信息

1.fsimage - 它是在NameNode启动时对整个文件系统的快照

2.edit logs - 它是在NameNode启动后,对文件系统的改动序列

  

  2.SeconderyNamenode:  职责是合并NameNode的edit logs到fsimage文件中,帮助NameNode

   

  3.DataNode : 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。NameNode 依赖来自每个 DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。

  一.HDFS相关概念  

  1.HDFS : Hadoop分布式文件系统(Hadoop Distributed File System)

  2.数据块:存储时为了方便传输和提高容错率,把文件分为多个数据块,hadoop1.x 是64M,hadoop2.x 是128M

  3.复制因子:hdfs文件会在多个节点进行备份,默认数量为3(现在配置的是伪分布式,只有一个)

  在hdfs-site.xml 中配置

  <property>

   <name>dfs.replication</name>

  <value>1</value>  

  </property>

  4.fsimage文件: FSImage文件是HDFS中名字节点NameNode上文件/目录元数据在特定某一时刻的持久化存储文件。

  5.edits文件: 操作日志文件,由NameNode或者SeconderyNamenode读取对fsimage文件进行更改

  6.安全模式: 安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。

  当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。

  这时,不允许客户端进行任何修改文件的操作,包括上传文件,删除文件,重命名,创建文件夹等操作。

  正常情况下,安全模式会运行一段时间自动退出的,只需要我们稍等一会就行了,到底等多长时间呢,我们可以通过50070端口查看安全模式退出的剩余时间

  

  三.常见HDFS shell命令

  1.查看目录 hadoop fs -ls hdfs目录(根目录为 /)

  2.创建目录 hadoop fs -mkdir -p hdfs路径 (-p是可以创建多级目录)

  3.删除目录 hadoop fs -rmdir hdfs目录 (只能删除空目录)

  4.删除文件 hadoop fs -rm -r hdfs路径 (加-r可循环删除非空目录)

  5.上传文件 hadoop fs -put 文件在本机的路径  hdfs路径

  6.下载文件 hadoop fs -get 文件在hdfs路径  文件在本机要放置的路径

  7.查看文件 hadoop fs -cat 文件在hdfs的路径

  8.查看健康模式 hdfs dfsadmin -safemode get

  

  

时间: 2024-07-31 11:58:46

Hadoop 新生报道(三) hadoop基础概念的相关文章

hadoop分布式存储(1)-hadoop基础概念(毕业设计)

hadoop是一种用于海量数据存储.管理.分析的分布式系统.需要hadoop需要储备一定的基础知识:1.掌握一定的linux操作命令 2.会java编程.因此hadoop必须安装在有jdk的linux环境中. linux环境可以用以下方式获取:1.安装linux操作系统  2.安装linux虚拟机  3.在阿里云.UniteStack上租一个云主机,创建linux环境,然后用putty去链接. linux下jdk的安装:百度即可. 与hadoop相关联的一些基础知识: Google大数据技术:

Hadoop 系列(一)基本概念

Hadoop 系列(一)基本概念 一.Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储. 从其定义就可以发现,它解決了两大问题:大数据存储.大数据分析.也就是 Hadoop 的两大核心:HDFS 和 MapReduce. HDFS(Hadoop Distributed File System) :是可扩展.容错.高性能的分布式文件系统,异步复制,一次写入多次读

Hadoop 2.x从零基础到挑战百万年薪第一季

鉴于目前大数据Hadoop 2.x被企业广泛使用,在实际的企业项目中需要更加深入的灵活运用,并且Hadoop 2.x是大数据平台处理 的框架的基石,尤其在海量数据的存储HDFS.分布式资源管理和任务调度YARN及分布式计算框架MapReduce.然而当前众多书籍和 视频教程资料中,没有一套完整的.深入浅出的.实战性操作强的一套资料,一此种情况下,结合鄙人多年实际项目经验,以项目中 使用为主线,编纂筹划此套Hadoop 2.x从零基础到项目实战的课程,带领大家从零基础开始上手,到如何理解HDFS.

Hadoop学习第一次:hadoop概念

1.大数据学习方向:一是系统建设技术,二,海量数据应用. 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架.目前可以先学习这个.但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle.为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,出来速度慢,如果又一种硬件技术,可以很快地处理海量数据,性能上能满足需求,那么集中式架构优于分布式架构,因为集中式架构稳定,运维压力小.现在的集中式架构要么性能达不到要求,要么就是过于昂贵.我期待一

《OD学hadoop》第三周0709

一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key

[Hadoop] Hadoop学习笔记之Hadoop基础

1 Hadoop是什么? Google公司发表了两篇论文:一篇论文是“The Google File System”,介绍如何实现分布式地存储海量数据:另一篇论文是“Mapreduce:Simplified Data Processing on Large Clusters”,介绍如何对分布式大规模数据进行处理.Doug Cutting在这两篇论文的启发下,基于OSS(Open Source software)的思想实现了这两篇论文中的原理,从而Hadoop诞生了. Hadoop是一种开源的适合

Hadoop学习问题记录之基础篇

目的 记录学习hadoop过程中遇到的基础问题,无关大小.无关困扰时间长短. 问题一 全分布式环境中运行mapred程序,报异常:java.net.NoRouteToHostException: 没有到主机的路由 在全分布式环境中运行mapred程序,报异常:java.net.NoRouteToHostException: 没有到主机的路由,但同样的配置.同样的程序,在伪分布式环境中是没有问题的.具体异常信息如下: 2019-09-14 15:37:44,018 INFO mapreduce.J

Hadoop学习笔记三:分布式hadoop部署

前语:如果看官是个比较喜欢使用现成软件的,比较推荐使用quickhadoop,这个使用参照官方文档即可,是比较傻瓜式的,这里不做介绍.本文主要是针对自己部署分布式hadoop. 1.修改机器名 [[email protected] root]# vi /etc/sysconfig/network 将HOSTNAME=*** 一栏改成适当的名称,笔者两台机器采用HOSTNAME=Hadoop00,HOSTNAME=Hadoop01这种方式. 2.修改IP,网关,掩码等 vim /etc/sysco

Hadoop新生报到(一) hadoop2.6.0伪分布式配置详解

首先先不看理论,搭建起环境之后再看: 搭建伪分布式是为了模拟环境,调试方便. 电脑是win10,用的虚拟机VMware Workstation 12 Pro,跑的Linux系统是centos6.5 ,装的hadoop2.6.0,jdk1.8: 1.准备工作 准备工作:把JDK和Hadoop安装包上传到linux系统(hadoop用户的根目录) 系统环境:IP:192.168.80.99, linux用户: root/123456,hadoop/123456 主机名:node 把防火墙关闭,roo