常用的HDFS操作

一、Hadoop提供的Shell命令完成相同任务：

在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt，里面可以随意输入一些单词.
在本地查看文件位置（ls）
在本地显示文件内容
使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。
查看hdfs中的文件(-ls)
显示hdfs中该的文件内容
删除本地的txt文件并查看目录
从hdfs中将txt下载地本地原来的位置。
从hdfs中删除txt并查看目录

cd /home/hadoop

touch wzh.txt

ls /home/hadoop

cat wzh.txt

./sbin/start-dfs.sh
./bin/hdfs dfs -mkdir -p /user/hadoop
./bin/hdfs dfs -mkdir input
 ./bin/hdfs dfs -put ./wzh.txt input

./bin/hdfs dfs -ls input

./bin/hdfs dfs -ls /input
./bin/hdfs dfs -cat input/wzh.txt

cd hadoop
 rm -r wzh.txt
ls -al

./bin/hdfs dfs -get /input/wzh.txt ~/hadoop

./bin/hdfs dfs -rm input/wzh.txt
./bin/hdfs dfs -ls input

二、

向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件；
从HDFS中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文件重命名；
将HDFS中指定文件的内容输出到终端中；
显示HDFS中指定的文件的读写权限、大小、创建时间、路径等信息；
给定HDFS中某一个目录，输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息，如果该文件是目录，则递归输出该目录下所有文件相关信息；
提供一个HDFS内的文件的路径，对该文件进行创建和删除操作。如果文件所在目录不存在，则自动创建目录；
提供一个HDFS的目录的路径，对该目录进行创建和删除操作。创建目录时，如果目录文件所在目录不存在则自动创建相应目录；删除目录时，由用户指定当该目录不为空时是否还删除该目录；
向HDFS中指定的文件追加内容，由用户指定内容追加到原有文件的开头或结尾；
删除HDFS中指定的文件；
删除HDFS中指定的目录，由用户指定目录中如果存在文件时是否删除目录；
在HDFS中，将文件从源路径移动到目的路径。

hadoop fs -put /home/hadoop/wzh.txt /usr/local/hadoop
hadoop fs -test -e /usr/local/hadoop/wzh.txt

if $(hadoop fs -test -e /home/hadoop/wzh.txt); <br>then $(hadoop fs -copyToLocal /usr/local/hadoop/wzh.txt /home/hadoop/wzh.txt);<br>else $(hadoop fs -copyToLocal /usr/local/hadoop/wzh.txt /home/hadoop/wzh2.txt); fi

hadoop dfs -cat /usr/local/hadoop/wzh.txt

hadoop dfs -ls -h /usr/local/hadoop/wzh.txt

hadoop dfs -ls -R -h /usr/local/hadoop

if $(hadoop dfs -test -d /usr/local/hadoop/test); then $(hadoop dfs -touch /usr/local/hadoop/test/wzh1.txt); else $(hadoop dfs -mkdir -p /usr/local/hadoop/test && hadoop dfs -touch /usr/local/hadoop/test/wzh1.txt); fi

hadoop dfs -rm -r /usr/local/hadoop/test

hadoop dfs -rm /usr/local/hadoop/wzh.txt

hadoop dfs -rmr /usr/local/hadoop

hadoop fs -mv /usr/local/hadoop/wzh.txt /usr/local/hadoop/hadoop_tmp/wzh.txt

原文地址：https://www.cnblogs.com/BOBOWZH/p/8951714.html

时间： 2024-10-12 07:57:22

常用的HDFS操作的相关文章

Tutorial 02_熟悉常用的HDFS操作

Shell命令实现: (1)向HDFS 中上传任意文本文件,如果指定的文件在HDFS 中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件: (2) 从HDFS 中下载指定文件,如果本地文件与要下载的文件名称相同,则自动对下载的文件重命名: (3) 将HDFS 中指定文件的内容输出到终端中: (4) 显示HDFS 中指定的文件的读写权限.大小.创建时间.路径等信息: (5) 给定HDFS 中某一个目录,输出该目录下的所有文件的读写权限.大小.创建时间. 路径等信息,如果该文件是目

熟悉常用的HDFS操作

在本地Linux文件系统的"/home/hadoop/"目录下创建一个文件txt,里面可以随意输入一些单词. mkdir hadoop cd hadoop touch 123.txt gedit 123.txt 在本地查看文件位置(ls) ls -al 在本地显示文件内容 gedit 123.txt 使用命令把本地文件系统中的"txt"上传到HDFS中的当前用户目录的input目录下. cd /usr/local/hadoop ./sbin/start-dfs.sh

第三章熟悉常用的HDFS操作

编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 在本地Linux文件系统的"/home/hadoop/"目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 mkdir hadoop cd hadoop touch dw777.txt gedit dw777.txt 使用命令把本地文件系统中的"txt"上传到HDFS中的当前用户目录的input目录下. ./sbin/start-dfs.sh

python基础操作以及hdfs操作

一.前言作为一个全栈工程师,必须要熟练掌握各种语言...HelloWorld.最近就被“逼着”走向了python开发之路,大体实现的功能是写一个通用类库将服务器本地存储的文件进行简单清洗后转储到HDFS中,所以基本上python的相关知识都涉及到了,这里对一些基础操作以及hdfs操作做一总结,以备查阅. 二.基础操作 2.1 字符串操作字符串操作应该是所有语言的基础.python基本上也提供了其他语言常用的一些字符串处理函数,常用的如下: 1.startswith 以某个字符串起始 2.en

2.HDFS操作

1. 使用命令行操作 1)4个通用命令行 <1>archive 归档文件的创建用途: 由于hadoop的设计是为了处理大数据,理想的数据应该blocksize的倍数.namenode在启动时会将所有的元数据load到内存中当大量小于blocksize的文件存在的时候,,不仅占用了大量的存储空间,也占用了大量的namenode内存. archive可以将多个小文件打包成一个大文件进行存储,并且打包后的文件仍然可以通过mapreduce来操作,因为打包后的文件由索引和存

[Elasticsearch] 关于字段重复值的常用查询和操作总结

1. 取得某个索引中某个字段中的所有出现过的值这种操作类似于使用SQL的SELECT UNIQUE语句.当需要获取某个字段上的所有可用值时,可以使用terms聚合查询完成: GET /index_streets/_search?search_type=count { "aggs": { "street_values": { "terms": { "field": "name.raw", "siz

.Net常用技巧_操作Excel知识点

C#操作Excel知识点近期在使用C#操作excel,主要是读取excel模板,复制其中的模板sheet页,生成多个sheet页填充相应数据后另存到excel文件,所用到的知识点如下. 一.添加引用和命名空间添加Microsoft.Office.Interop.Excel引用,它的默认路径是C:\Program Files\Microsoft Visual Studio 9.0\Visual Studio Tools for Office\PIA\Office12\Microsoft.Off

.Net常用技巧_操作xml文件教程（插入节点、修改、删除）

已知有一个XML文件(bookstore.xml)如下: <?xml version="1.0" encoding="gb2312"?> <bookstore> <book genre="fantasy" ISBN="2-3631-4"> <title>Oberon's Legacy</title&

说说常用的服务器操作

想写写自己日常常用的服务器操作,但是想到这个题目还是有点大的.鸟哥两本linux私房菜的书才说完了所有的服务器操作命令,这里一次性列出来也不现实.差不多这里就写写一些比较常用的命令吧. ps aux|grep XXX 这个是最常用的命令了,查看一个进程的状态啥的.还能看到端口号,运行时间等.如果需要批量关掉这些进程,也可以延生使用管道: ps aux|grep XXX|awk '{print $2}'|xargs kill netstat -anp|grep XXX 记得老王微博上有问过