HDFS知识点

HDFS的组成,NameNode,DataNode,SecondaryNameNode作用?

HDFS是什么?

HDFS的优缺点:

HDFS的块大小,为什么不能太大,也不能太小?

1.基本语法

bin/hadoop fs 具体命令   OR  bin/hdfs dfs 具体命令

dfs是fs的实现类。

2.命令大全

[[email protected] hadoop-2.7.2]$ bin/hadoop fs

[-appendToFile <localsrc> ... <dst>]

[-cat [-ignoreCrc] <src> ...]

[-checksum <src> ...]

[-chgrp [-R] GROUP PATH...]

[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]

[-chown [-R] [OWNER][:[GROUP]] PATH...]

[-copyFromLocal [-f] [-p] <localsrc> ... <dst>]

[-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]

[-count [-q] <path> ...]

[-cp [-f] [-p] <src> ... <dst>]

[-createSnapshot <snapshotDir> [<snapshotName>]]

[-deleteSnapshot <snapshotDir> <snapshotName>]

[-df [-h] [<path> ...]]

[-du [-s] [-h] <path> ...]

[-expunge]

[-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]

[-getfacl [-R] <path>]

[-getmerge [-nl] <src> <localdst>]

[-help [cmd ...]]

[-ls [-d] [-h] [-R] [<path> ...]]

[-mkdir [-p] <path> ...]

[-moveFromLocal <localsrc> ... <dst>]

[-moveToLocal <src> <localdst>]

[-mv <src> ... <dst>]

[-put [-f] [-p] <localsrc> ... <dst>]

[-renameSnapshot <snapshotDir> <oldName> <newName>]

[-rm [-f] [-r|-R] [-skipTrash] <src> ...]

[-rmdir [--ignore-fail-on-non-empty] <dir> ...]

[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]

[-setrep [-R] [-w] <rep> <path> ...]

[-stat [format] <path> ...]

[-tail [-f] <file>]

[-test -[defsz] <path>]

[-text [-ignoreCrc] <src> ...]

[-touchz <path> ...]

[-usage [cmd ...]]

3.常用命令实操(在进行操作时一定要注意haddop 下的hdfs-site.xml中配置的节点数一定要和启动的datanode节点数一直,只能大不能小)

(0)启动Hadoop集群(方便后续的测试)

[[email protected] hadoop-2.7.2]$ sbin/start-dfs.sh

[[email protected] hadoop-2.7.2]$ sbin/start-yarn.sh

(1)-help:输出这个命令参数

[[email protected] hadoop-2.7.2]$ hadoop fs -help rm

(2)-ls: 显示目录信息

用法1:hadoop fs -ls /

功能:列出hdfs文件系统根目录下的目录和文件

用法2:hadoop fs -ls -R /

功能:列出hdfs文件系统所有的目录和文件

[[email protected] hadoop-2.7.2]$ hadoop fs -ls /

(3)-mkdir:在HDFS上创建目录

用法1:hadoop fs -mkdir <hdfs path>

功能:只能一级一级的建目录,父目录不存在的话使用这个命令会报错

用法2:hadoop fs -mkdir -p <hdfs path>

功能:所创建的目录如果父目录不存在就创建该父目录

[[email protected] hadoop-2.7.2]$ hadoop fs -mkdir -p /sanguo/shuguo

(4)-test

 功能:测试检查目录或者文件是否存在

 使用方法:hadoop fs -test -[ezd] URI

选项:
        -e 检查文件是否存在。如果存在则返回0。
        -z 检查文件是否是0字节。如果是则返回0。

-d 如果路径是个目录,则返回0,否则返回1。

[[email protected] hadoop-2.7.2]$ hadoop fs -test -e /jinghang

[[email protected] hadoop-2.7.2]$ echo $?

[[email protected] hadoop-2.7.2]$ hadoop fs -test -z /jinghang/a.txt

[[email protected] hadoop-2.7.2]$ echo $?

[[email protected] hadoop-2.7.2]$ hadoop fs -test -d /jinghang/a.txt

[[email protected] hadoop-2.7.2]$ echo $?

(5)-moveFromLocal:从本地剪切粘贴到HDFS

用法:hadoop fs -moveFromLocal <local src> <hdfs dst>

功能:与put相类似,命令执行后源文件 local src 被删除

[[email protected] hadoop-2.7.2]$ touch kongming.txt

[[email protected] hadoop-2.7.2]$ hadoop fs  -moveFromLocal  ./kongming.txt  /sanguo/shuguo

(6)-appendToFile:追加一个文件到已经存在的文件末尾

用法:hadoop fs -appendToFile <local src> <hdfs dst>

功能:将一本地文件中的内容拼接在hdfs文件中

[[email protected] hadoop-2.7.2]$ touch liubei.txt

[[email protected] hadoop-2.7.2]$ vi liubei.txt

输入

san gu mao lu

[[email protected] hadoop-2.7.2]$ hadoop fs -appendToFile liubei.txt /sanguo/shuguo/kongming.txt

(6)-cat:显示文件内容

[[email protected] hadoop-2.7.2]$ hadoop fs -cat /sanguo/shuguo/kongming.txt

(7)-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限、

用法:hadoop fs -chown 用户名:组名 <hdfs file>

功能:修改文件或目录所属用户和组,递归加参数-R,chmod

[[email protected] hadoop-2.7.2]$ hadoop fs  -chmod  666  /sanguo/shuguo/kongming.txt

[[email protected] hadoop-2.7.2]$ hadoop fs  -chown  jinghang:jinghang   /sanguo/shuguo/kongming.txt

(8)-copyFromLocal:从本地文件系统中拷贝文件到HDFS路径去

用法:hadoop fs -copyFromLocal <local src> <hdfs dst>

功能:与put相类似

[[email protected] hadoop-2.7.2]$ hadoop fs -copyFromLocal README.txt /

(9)-copyToLocal:从HDFS拷贝到本地

用法:hadoop fs -copyToLocal <local src> <hdfs dst>

功能:与get相类似

[[email protected] hadoop-2.7.2]$ hadoop fs -copyToLocal /sanguo/shuguo/kongming.txt ./

(10)-cp :从HDFS的一个路径拷贝到HDFS的另一个路径

用法:hadoop fs -cp <hdfs file> <hdfs file>

功能:目标文件不能存在,否则命令不能执行,相当于给文件重命名并保存,源文件还存在

[[email protected] hadoop-2.7.2]$ hadoop fs -cp /sanguo/shuguo/kongming.txt /zhuge.txt

(11)-mv:在HDFS目录中移动文件

用法:hadoop fs -mv <hdfs file> <hdfs file>

功能:目标文件不能存在,否则命令不能执行,相当于给文件重命名并保存,源文件不存在

[[email protected] hadoop-2.7.2]$ hadoop fs -mv /zhuge.txt /sanguo/shuguo/

(12)-get:等同于copyToLocal,就是从HDFS下载文件到本地

用法:hadoop fs -get <hdfs file> <local file or dir>

功能:local file不能和 hdfs file名字不能相同,否则会提示文件已存在,没有重名的文件会复制到本地

[[email protected] hadoop-2.7.2]$ hadoop fs -get /sanguo/shuguo/kongming.txt ./

(13)-getmerge:合并下载多个文件,比如HDFS的目录 /user/jinghang/test下有多个文件:log.1, log.2,log.3,...

[[email protected] hadoop-2.7.2]$ hadoop fs -getmerge /user/jinghang/test/* ./zaiyiqi.txt

(13)-put:等同于copyFromLocal

用法:hadoop fs -put <local file> <hdfs file>

功能:hdfs file的父目录一定要存在,否则命令不会执行

[[email protected] hadoop-2.7.2]$ hadoop fs -put ./zaiyiqi.txt /user/jinghang/test/

(15)-tail:显示一个文件的末尾

用法:hadoop fs -tail <hdfs file>

功能:查看大文件后10行

[[email protected] hadoop-2.7.2]$ hadoop fs -tail -f /sanguo/shuguo/kongming.txt

(16)-rm:删除文件或文件夹

用法1:hadoop fs -rm <hdfs file>

功能:删除文件

用法2:hadoop fs -rm -r <hdfs dir>

功能:删除目录

[[email protected] hadoop-2.7.2]$ hadoop fs -rm /user/jinghang/test/jinlian2.txt

(17)-rmdir:删除空目录

[[email protected] hadoop-2.7.2]$ hadoop fs -mkdir /test

[[email protected] hadoop-2.7.2]$ hadoop fs -rmdir /test

(18)-du统计文件夹的大小信息

[[email protected] hadoop-2.7.2]$ hadoop fs -du -s -h /user/jinghang/test

2.7 K  /user/jinghang/test

[[email protected] hadoop-2.7.2]$ hadoop fs -du  -h /user/jinghang/test

1.3 K  /user/jinghang/test/README.txt

15     /user/jinghang/test/jinlian.txt

1.4 K  /user/jinghang/test/zaiyiqi.txt

(19)-setrep:设置HDFS中文件的副本数量

[[email protected] hadoop-2.7.2]$ hadoop fs -setrep 10 /wcinput/input.txt

原文地址:https://www.cnblogs.com/lu0420-0412/p/12074785.html

时间: 2024-08-29 02:22:13

HDFS知识点的相关文章

HDFS知识点总结

学习完Hadoop权威指南有一段时间了,现在再回顾和总结一下HDFS的知识点. 1.HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统. HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件. 2.HDFS的概念 HDFS数据块:HDFS上的文件被划分为块大小的多个分块,作为独立的存

hdfs知识点《转》

学习完Hadoop权威指南有一段时间了,现在再回顾和总结一下HDFS的知识点. 1.HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统. HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件. 2.HDFS的概念 HDFS数据块:HDFS上的文件被划分为块大小的多个分块,作为独立的存

HDFS常见知识点总结

一.主从结构:在一个集群中,会有部分节点充当主服务器的角色,其他服务器都是从服务器的角色,当前这种架构模式叫做主从结构. 主从结构分类: 1.一主多从 2.多主多从 Hadoop中的HDFS和YARN都是主从结构,主从结构中的主节点和从节点有多重概念方式: 1.主节点 从节点 2.master slave 3.管理者 工作者 4.leader follower Hadoop集群中各个角色的名称: 服务 主节点 从节点 HDFS NameNode DataNode YARN ResourceMan

HDFS是什么?HDFS适合做什么?我们应该怎样操作HDFS系统?(第3篇)

第四章  HDFS文件系统 Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统,专门存储超大数据文件,为整个Hadoop生态圈提供了基础的存储服务. 本章内容: 1) HDFS文件系统的特点,以及不适用的场景 2) HDFS文件系统重点知识点:体系架构和数据读写流程 3) 关于操作HDFS文件系统的一些基本用户命令 1. HDFS特点: HDFS专为解决大数据存储问题而产生的,其具备了以下特点: 1) HDFS文件系统可存储超大文件 每个磁盘都有默认的数据块大小

HDFS副本放置策略

前言 前一篇文章中刚刚分析完HDFS的异构存储以及相关的存储类型选择策略,浏览量还是不少的,说明大家对于HDFS的异构存储方面的功能还是很感兴趣的.但是其实一个文件Block块从最初的产生到最后的落盘,存储类型选择策略只是其中1步,因为存储类型选择策略只是帮你先筛选了一些符合存储类型要求的存储节点目录位置列表,通过这些候选列表,你还需要做进一步的筛选,这就是本文所准备阐述的另外一个主题,HDFS的副本放置策略.在写本文之前,我搜过网上关于此方面的资料与文章,还是有许多文章写的非常不错的,所以我会

IT十八掌课程体系SPARK知识点总结

Spark知识点 IT十八掌课程体系SPARK知识点如下: 有需要IT十八掌体系课程的可以加微信:15210639973 1.定义 MapReduce-like集群计算框架设计的低延迟迭代和交互使用的工作. 2.体系结构 3.一些重要概念的解析 (1) RDD(resilient distributed dataset) 弹性分布式数据集一个只读的,可分区的分布式数据集,能够部分或全部的缓存在内存中(数据溢出时会根据LRU策略来决定哪些数据可以放在内存里,哪些存到磁盘上),用来减少Disk-io

深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)

Hadoop是什么,为什么要学习Hadoop?     Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据

HDFS内存存储

前言 上一篇文章主要阐述了HDFS Cache缓存方面的知识,本文继续带领大家了解HDFS内存存储相关的内容.在HDFS中,CacheAdmin设置的目标文件缓存是会存放于DataNode的内存中,但是另外一种情况也可以将数据存放在DataNode的内存里.就是之前HDFS异构存储中提到的内存存储策略,LAZY_PERSIST.换句话说,本文也是对HDFS内存存储策略的一个更细致的分析.考虑到LAZY_PERSIST内存存储与其他存储策略类型的不同之处,做这样的一个分析还是比较有意义的. HDF

HDFS知识总结

转自:https://www.cnblogs.com/caiyisen/p/7395843.html 学习完Hadoop权威指南有一段时间了,现在再回顾和总结一下HDFS的知识点. 1.HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统. HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意