指导手册03:Hadoop基础操作

指导手册03:Hadoop基础操作

Part 1:查看Hadoop集群的基本信息
1.查询存储系统信息
(1)在WEB浏览器的地址栏输入http://master:50070/

请查看自己的Hadoop集群填写下表


Configured Capacity:己配置的文件系统存储总量


DFS Remaining :可使用的DFS存储总量


Non DFS Used 被非DFS的应用所占用的存储总量


DFS Used:己使用的 DFS存储总量


Live Nodes: 在线的数据节点:

 

(2)显示数据节点信息
 

查询HDFS信息的命令

Hdfs dfsadmin –report [-live] [-dead] [decommissioning]
report:输出文件系统的基本信息及相关数据统计。
-report -live:输出文件系统中在线节点的基本信息及相关数据统计。
-report -dead:输出文件系统中失效节点的基本信息及相关数据统计。
-report -decommissioning:输出文件系统中停用节点的基本信息及相关数据统计。

例:hdfs dfsadmin –report –live  查看在线节点的基本信息,请填写下表。

节点名(Node)


总存储空间(capacity)


己使用(DFS Used)


DFS没使用(Non DFS Used)


DFS 剩余(Remaining)

(3)查询集群的计算资源信息

在浏览器的地址栏输入“http://master:8088/cluster/nodes”
 

继续单击页面上的超链接“slave1:8042”,可以显示计算机slave1的各项资源信息。

Part 2:上传文件到HDFS目录
情景描述:
把存储在本机中的原始数据文件email_log.txt上传到Hadoop集群中的HDFS目录/user/root/
1.HDFS的基本操作
在本地计算机的Web浏览器可远程访问HDFS的监控服务端口(http://master:50070)。当需要访问HDFS上的目录及文件时,推荐使用http://master:50070/nn_browsedfscontent.jsp

在集群服务器的终端输入“hdfs dfs”命令,可以完成对HDFS目录及文件的大部分管理操作。
(1) 创建新目录
hdfs dfs -mkdir [-p] <path>  -p:不加只能逐级创建目录,加了可以多级创建目录
例:
[[email protected]]#hdfs dfs –mkdir –p /user/dfstest
[[email protected]]#hdfs dfs –mkdir –p /user/test/example
(2) 上传文件
命令 解释
hdfs dfs [-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>] 将文件从本地文件系统拷贝到HDFS文件系统,主要参数<localsrc>为本地文件路径,<dst>为拷贝的目标路径。
hdfs dfs [-moveFromLocal <localsrc> ... <dst>] 将文件从本地文件系统移动到HDFS文件系统,主要参数<localsrc>为本地文件路径,<dst>为移动的目标路径。
hdfs dfs [-put [-f] [-p] [-l] <localsrc> ... <dst>]
 将文件从本地文件系统上传到HDFS文件系统,主要参数<localsrc>为本地文件路径,<dst>为上传的目标路径。
例:
将集群服务器节点上的本地文件a.txt上传到HDFS目录/user/dfstest中。(a.txt请自行新建)
[[email protected] hadoop-2.6.4] #hdfs dfs –copyFromLocal a.txt /user/dfstest
[[email protected] hadoop-2.6.4] #hdfs dfs –moveFromLocal a.txt /user/dfstest/b.txt
[[email protected] hadoop-2.6.4] #hdfs dfs –put  a.txt /user/dfstest/c.txt

(3) 下载文件
命令 解释
hdfs dfs [-copyToLocal [-p] [-ignoreCrc] [-crc] <src>... <localdst>] 将文件从HDFS文件系统拷贝到本地文件系统,主要参数<src>为HDFS文件系统路径,<localdst>为本地文件系统路径。
hdfs dfs [-get [-p] [-ignoreCrc] [-crc] <src>...<localdst>] 获取HDFS文件系统上指定路径的文件到本地文件系统,主要参数<src>为HDFS文件系统路径,<localdst>为本地文件系统路径。
例:
从/user/dfstest中下载a.txt和c.txt,存储在集群服务器节点master上的本地目录/data/hdfs_test/中。(hdfs_test目录请自行创建)
[[email protected] hdfs_test] #hdfs dfs –copyToLocal /user/dfstest/a.txt
[[email protected] hdfs_test] #hdfs dfs get /user/dfstest/c.txt
[[email protected] hdfs_test] # ls

(3) 查看文件内容
命令 解释
hdfs dfs [-cat [-ignoreCrc] <src> ...] 查看HDFS文件内容,主要参数<src>指示文件路径。
hdfs dfs [-tail [-f] <file>]  输出HDFS文件最后1024字节,主要参数<file>指定文件。
例:
[[email protected] hdfs_test] #hdfs dfs –cat /user/dfstest/a.txt
[[email protected] hdfs_test] #hdfs dfs –tail /user/dfstest/c.txt

(4) 删除文件或目录
命令 解释
hdfs dfs [-rm [-f] [-r|-R] [-skipTrash] <src> ...] 删除HDFS上的文件,主要参数-r用于递归删除,<src>指定删除文件的路径。
hdfs dfs [-rmdir [--ignore-fail-on-non-empty] <dir> ...] 如果删除的是一个目录,则可以用该方法,主要参数<dir>指定目录路径。
例:
[[email protected] hdfs_test] #hdfs dfs –mkdir /user/dfstest/rmdir
[[email protected] hdfs_test] #hdfs dfs –rm /user/dfstest/c.txt
[[email protected] hdfs_test] #hdfs dfs –rmdir /user/dfstest/rmdir

2.上传文件到HDFS
(1)把本地计算机硬盘中的数据文件email_log.txt传输到集群服务器(master)的本地目录/root/hadoop。
可以使用SSH Secure等工具上传。
 (2)在集群服务器(master)的终端执行HDFS命令,上传email_log.txt到HDFS目录/user/root/
Hdfs dfs  -put /root/hadoop/email_log.txt /user/root/

原文地址:https://www.cnblogs.com/soft2408/p/9745314.html

时间: 2024-07-30 01:49:40

指导手册03:Hadoop基础操作的相关文章

hadoop - 基础操作

查看文件: [[email protected] hadoop]# hadoop fs -lsr /drwxr-xr-x - root supergroup 0 2016-12-27 10:49 /homedrwxr-xr-x - root supergroup 0 2016-12-27 10:49 /home/hadoopdrwxr-xr-x - root supergroup 0 2016-12-27 10:49 /home/hadoop/tmpdrwxr-xr-x - root super

指导手册04:运行MapReduce

指导手册04:运行MapReduce   Part 1:运行单个MapReduce任务 情景描述: 本次任务要求对HDFS目录中的数据文件/user/root/email_log.txt进行计算处理,统计出第个用户的登录次数. 情景分析:统计出每个用户登录次数,等同于求出每个email出现的次数,可以进一步抽象为统计每个单司出现的频次.在Hadoop官方提供的示例包中,正好有进行记频统计的模块. 1.Hadoop官方的示例程序包 在集群服务器的本地目录"$HADOOP_HOME/share/ha

指导手册01:安装Hadoop

指导手册01:安装Hadoop  Part 1:安装及配置虚拟机 1.安装Linux. (1)打开VMvirtualBox (2) 控制->新建虚拟机,输入虚拟机名称"marst+学号" 类型:Linux,版本:other Linux(64-bit) CentOS-6.8-x86_64-bin-DVD1 (3)内存建议1024M, 创建虚拟盘VHD虚拟硬盘,动态分配,硬盘20G. (4) 右击己创建的虚拟机master, 设置:网络,网卡1:桥接网卡.存储:光盘,选择CentOS

Hadoop基础学习(一)分析、编写并运行WordCount词频统计程序

前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境. 详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出. 但是好像以前在南大上学时学习的Hadoop都忘记得差不多了,所以找到以前上课做的几个实验:wordCount,PageRank以及InversedIndex.

Java 注解指导手册 – 终极向导

原文链接 原文作者:Dani Buiza 译者:Toien Liu  校对:深海 编者的话:注解是java的一个主要特性且每个java开发者都应该知道如何使用它. 我们已经在Java Code Geeks提供了丰富的教程, 如Creating Your Own Java Annotations, Java Annotations Tutorial with Custom Annotation 和 Java Annotations: Explored & Explained. 我们也有些文章是关于

《Hadoop基础教程》之初识Hadoop

Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程>是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史.核心技术和应用场景有了初步了解. Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 随后在2

proxmark3使用指导手册

Proxmark3是由Jonathan Westhues设计并且开发的开源硬件,其主要用RFID的嗅探.读取以及克隆等的操作.是因为原作者为了研究有关Mifare Classic硕士论文而生的. Proxmark只有两个版本:Proxmark2以及Proxmark3,Proxmark2版本是因为Jonathan Wesrhues为了复制Verichip才应运而生的,而Proxmark2的前身就是一个便携式的Verichips,该硬件可以读取并且重放Verichip的ID,如果利用天线去靠近Ver

Emacs学习心得之 基础操作

1.前言与学习计划2.Emacs基础操作 一. 前言与学习计划 本篇博文记录了Emacs的一些基础操作与概念,相关的阅读如下: (emacs tutorial 中文精简版 )    http://blog.chinaunix.net/uid-24386676-id-119687.html (emacs user's guide)  http://www.cbi.pku.edu.cn/chinese/documents/csdoc/emacs/ (学习Emacs系列教程 )  http://www

【甘道夫】Sqoop1.99.3基础操作--导入Oracle的数据到HDFS

第一步:进入客户端Shell [email protected]:~$ sqoop.sh client Sqoop home directory: /home/fulong/Sqoop/sqoop-1.99.3-bin-hadoop200 Sqoop Shell: Type 'help' or '\h' for help. sqoop:000> set server --host FBI003 --port 12000 --webapp sqoop Server is set successfu