对Hadoop分布式文件系统HDFS的操作实践

原文地址：https://dblab.xmu.edu.cn/blog/290-2/

Hadoop分布式文件系统（Hadoop Distributed File System,HDFS）是Hadoop核心组件之一，如果已经安装了Hadoop，其中就已经包含了HDFS组件，不需要另外安装。

在学习HDFS编程实践前，执行如下命令，启动Hadoop。

一、利用Shell命令与HDFS进行交互

Hadoop支持很多Shell命令，其中fs是HDFS最常用的命令，利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。

有三种shell命令方式。
1. hadoop fs 适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统
2. hadoop dfs 只能适用于HDFS文件系统
3. hdfs dfs 只能适用于HDFS文件系统

我们可以在终端输入如下命令，查看fs总共支持了哪些命令

1.目录操作

需要注意的是，Hadoop系统安装好以后，第一次使用HDFS时，需要首先在HDFS中创建用户目录。本教程全部采用hadoop用户登录Linux系统，因此，需要在HDFS中为hadoop用户创建一个用户目录，命令如下：

该命令中表示在HDFS中创建一个“/user/hadoop”目录，“–mkdir”是创建目录的操作，“-p”表示如果是多级目录，则父目录和子目录一起创建，这里“/user/hadoop”就是一个多级目录，因此必须使用参数“-p”，否则会出错。
“/user/hadoop”目录就成为hadoop用户对应的用户目录，可以使用如下命令显示HDFS中与当前用户hadoop对应的用户目录下的内容：

该命令中，“-ls”表示列出HDFS某个目录下的所有内容，“.”表示HDFS中的当前用户目录，也就是“/user/hadoop”目录，因此，上面的命令和下面的命令是等价的：

如果要列出HDFS上的所有目录，可以使用如下命令：

下面，可以使用如下命令创建一个input目录：

可以使用rm命令删除一个目录，比如，可以使用如下命令删除刚才在HDFS中创建的“/input”目录（不是“/user/hadoop/input”目录）：

上面命令中，“-r”参数表示如果删除“/input”目录及其子目录下的所有内容，如果要删除的一个目录包含了子目录，则必须使用“-r”参数，否则会执行失败。

2.文件操作

在实际应用中，经常需要从本地文件系统向HDFS中上传文件，或者把HDFS中的文件下载到本地文件系统中。
首先，使用vim编辑器，在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件myLocalFile.txt，里面可以随意输入一些单词，比如，输入如下三行：

然后，可以使用如下命令把本地文件系统的“/home/hadoop/myLocalFile.txt”上传到HDFS中的当前用户目录的input目录下，也就是上传到HDFS的“/user/hadoop/input/”目录下：

可以使用ls命令查看一下文件是否成功上传到HDFS中，具体如下：

该命令执行后会显示类似如下的信息：

下面使用如下命令查看HDFS中的myLocalFile.txt这个文件的内容：

下面把HDFS中的myLocalFile.txt文件下载到本地文件系统中的“/home/hadoop/下载/”这个目录下，命令如下：

可以使用如下命令，到本地文件系统查看下载下来的文件myLocalFile.txt：

最后，了解一下如何把文件从HDFS中的一个目录拷贝到HDFS中的另外一个目录。比如，如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”文件，拷贝到HDFS的另外一个目录“/input”中（注意，这个input目录位于HDFS根目录下），可以使用如下命令：

原文地址：https://www.cnblogs.com/wang-jx/p/9532205.html

时间： 2024-11-08 12:56:09

对Hadoop分布式文件系统HDFS的操作实践的相关文章

Hadoop学习笔记_5_分布式文件系统HDFS --shell操作

分布式文件系统HDFS --shell操作分布式文件系统[Distributed File System]概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 . 分布式文件系统特点: 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般

Hadoop分布式文件系统HDFS的工作原理详述

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统. 1.分布式文件系统多台计算机联网协同工作(有时也称为一个集群)就像单台系统一样解决某种问题,这样的系统我们称之为分布式系统. 分布式文件系统是分布式系统的一个子集,它们解决的问题就是数据存储.换句话说,它们是横跨在多台计算机上的存

【转载】Hadoop分布式文件系统HDFS的工作原理详述

转载请注明来自36大数据(36dsj.com):36大数据 » Hadoop分布式文件系统HDFS的工作原理详述转注:读了这篇文章以后,觉得内容比较易懂,所以分享过来支持一下. Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统. 1.分布式文件系统多台计算机联网协同工作(有时也

Hadoop分布式文件系统--HDFS结构分析

转自:http://blog.csdn.net/androidlushangderen/article/details/47377543 HDFS系列:http://blog.csdn.net/Androidlushangderen/article/category/5734703 前言在Hadoop内部,具体实现了许多类的文件系统,当然最最被我们用到的就是他的分布式文件系统HDFS了.但是本篇文章不会讲HDFS的主从架构等东西,因为这些东西网上和资料书中都讲得很多了.所以,我决定以我个人的学

Hadoop分布式文件系统-HDFS

Hadoop历史雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS).GFS也就是google File System,google公司为了存储海量搜索数据而设计的专用文件系统. 2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS. 2004年G

Hadoop分布式文件系统HDFS详解

Hadoop分布式文件系统即Hadoop Distributed FileSystem. 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并存储到若干台单独的计算机上,管理网络中跨越多台计算机存储的文件系统成为分布式文件系统(Distributed FileSystem). 该系统架构与网络之上,势必引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂.例如:使文件系统能够容忍节点故障且不丢数据便是一个极大的挑战.

Hadoop分布式文件系统HDFS的工作原理

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统. 1 .分布式文件系统多台计算机联网协同工作(有时也称为一个集群)就像单台系统一样解决某种问题,这样的系统我们称之为分布式系统. 分布式文件系统是分布式系统的一个子集,它们解决的问题就是数据存储. 换句话说,它们是横跨在多台计算机上

Hadoop分布式文件系统HDFS

HDFS的探究: HDFS HDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数据访问模式的分布式文件系统,支持海量数据的存储,允许用户将百千台组成存储集群,HDFS运行在低成本的硬件上,提供高吞吐量,高容错性的数据访问. 优点可以处理超大文件(TB.PB). 流式数据访问一次写入多次读取,数据集一旦生成,会被复制分发到不同存储节点上,响应各种数据分析任务请求. 商用硬件

Hadoop分布式文件系统---HDFS重点

介绍: HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错.高吞吐量等特性,可以部署在低成本的硬件上. HDFS 设计原理 HDFS 架构 HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成: NameNode : 负责执行有关文件系统命名空间的操作,例如打开,关闭.重命名文件和目录等.它同时还负责集群元数据的存储,记录着文件中各个数据块的位置信息. DataNode:负责

猜你喜欢

《A First Course in Abstract Algebra with Applications》-chaper1-数论-棣莫弗定理

定理1.24 (棣莫弗定理) 对每个实数x和每个正整数n有基于棣莫弗定理的推论如下:

iOS开发最最基础之配置AppID、Certificate、Device、profile

本文主要讲述以下5点内容: 1.前期准备 2.AppID 3.Certificate 4.Device 5.Profile 1.前期准备: a)已付费苹果开发者账号 b)苹果电脑一台 2.AppID ...

linux运维学习决心书

我叫李向明,84年的,算下今年32岁了,毕业10年,从系统测试到公司各类系统的维护和技术支持,一直在迷茫的工作更替中曲折的前行,在这个30拐弯的尴尬年龄,突然发现自己没有可以让人青睐的哪怕是一技之长. ...

练习1-9

int main(int argc, char** argv) { int nspace = 0; int c; while((c=getchar())!=EOF){ if(c!=' '){ nspa ...

Shaolin Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others)Total Sub ...

推荐几个配色和图标网站

图标网站https://www.iconfinder.comhttp://www.flaticon.com/ 渐变选择器http://sc.chinaz.com/jiaobendemo.aspx?do ...

vmware上centos连接网络总结

一.基本问题在使用vmware上安装虚拟机后经常需要连接网络,同时我们可能会在无线网络.有线网络.拨号上网三种网络环境中切换(本人使用笔记本在家是拨号,公司是有线).如果在上面的三种情况中使用物理桥 ...

垃圾回收 GC

垃圾回收器的回收的对象: 垃圾回收只回收托管堆中的内存什么样的对象才会被回收? 没有变量引用的对象.没有变量引用的对象,表示可以被回收了(null. 什么时间回收? 不确定,当程序需要新内存的时候开 ...

[前端小小白的学习之路]--Bable实现由ES6转译为ES5

Babel是一个广泛使用的转码器,可以将ES6代码转译为ES5代码,从而在现有环境下执行. 举例说明: 转译前(ES6格式)代码如下: let User = { name : '张三', age : ...

济南普硕信息技术有限公司 —— 我的第一段公司实习经历

2015年校招正式拉开了帷幕.只有亲自去参加了宣讲,才有那种求职的渴望与企图,希望可以在师兄师姐的求职过程中,觅得一杯羹,为自己拿到一个实习offer.把自己赤裸裸的放在HR们眼前,厚起脸皮让他们挑刺 ...

Storm集群的搭建

集群结构 Storm集群表面类似Hadoop集群.但在Hadoop上你运行的是”MapReduce jobs”,在Storm上你运行的是”topologies”.”Jobs”和”topologies” ...

TNS-12535: TNS:operation timed out以及TNS-00505: Operation timed out的处理

序言:查看alert日志,发现很多报错信息:[[email protected] trace]$ more alert_powerdes.log *************************** ...

cookie 与html5 中的localstorage 与sessionstorage的异同

Cookie的大小是受限的,并且每次你请求一个新的页面的时候Cookie都会被发送过去,这样无形中浪费了带宽,另外cookie还需要指定作用域,不可以跨域调用. Web Storage拥有setIt ...

Android 视频二次开发技术

近日,发现有较多朋友反馈在使用Chat SDK音视频解决方案,特别是在将标准android demo的VideoActivity视频部分代码移植到自己的工程中遇到本地视频黑屏或者远程视频显示不了的问题 ...

libnet发包例子(tcp udp arp广播)

#include <libnet.h> int main() { libnet_t *handle; /* Libnet句柄 */ int packet_size; /* 构造的数据包大小 ...

android的ndk学习（1）

android的ndk学习(1) 之前学了一段时间ndk,总觉得要总结一下.ndk使得非常方便地实现java和C与C++代码的相互沟通,合理地掌握使用ndk可以提高应用程序的执行效率,所以对于学习an ...

C数据结构学习笔记二循环和递归打印fibonacci函数

//循环方式实现 #include <stdio.h> int main(int argc, char *argv[]) { int f1=0,f2=1,f3; printf(" ...

关于FireDAC返回多结果集的问题

以前使用ADO, 如果SQL返回的结果集有多个可以通过NextRecordset来依次获取代码移植到FireDAC, 对于多结果集处理差不多, 但是还是有一些不一样的地方: 1.TDataSet本 ...

方法一: 新建index.php,代码如下 <?php header("Content-type:application/vnd.ms-excel"); header(&qu ...

TeleMCU视频会议系统增加字幕支持

本文原创自 http://blog.csdn.net/voipmaker 转载注明出处. 最新版本TeleMCU增加了字幕支持,与会者可以看到其他人的名字,做法是在与会者的视频上overlay 文本 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.