Spark学习笔记-hadoop命令

进入 $HADOOP/bin

一.文件操作

文件操作类似于正常的linux操作前面加上“hdfs dfs -”

前缀也可以写成hadoop而不用hdfs,但终端中显示

Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

1.创建目录：(注意文件夹需一级一级创建)

hdfs dfs -mkdir /user

hdfs dfs -mkdir /user/com

hdfs dfs -mkdir /user/com/evor

2.删除文件目录

hdfs dfs -rm -r /user/com/evor （-rmr也可以）删除文件夹下所有东西 rm的递归版本

hdfs dfs -rm /user/com/evor/hadoop.txt　　删除文件

3.上传文件

1）hdfs dfs -put /本/地/路/径/spark.jar /user/com/evor

2）hdfs dfs -copyFromLocal /本/地/路/径/spark.jar /user/com/evor

区别 copyFromLocal 限定源路径为本地的路径，其他与-put相同

4.下载文件

复制文件到本地

1) hdfs dfs -get /user/com/evor/spark.jar /本/地/路/径

2) hdfs dfs -copyToLocal /user/com/evor/spark.jar /本/地/路/径

区别 copyToLocal 限定目标路径为本地的路径，其他与-get相同

5.查看文件

我们可以直接在hdfs中直接查看文件，功能与cat类似

将路径指定文件的内容输出到stdout。

hdfs dfs -cat /user/com/evor/hadoop.txt

hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2

hadoop fs -cat file:///file3 /user/hadoop/file4

6.修改权限

hdfs dfs -chmod 777 /user/com/evor/WordCount.sh

二.MapReduce Job操作

提交MapReduce Job

运行jar文件。用户可以把他们的Map Reduce代码捆绑到jar文件中，原则上说，Hadoop所有的MapReduce Job都是一个jar包。

运行一个/home/admin/hadoop/job.jar的MapReduce Job

执行：hadoop jar /home/admin/hadoop/job.jar [jobMainClass] [jobArgs] (注意是hadoop 不是hdfs)

杀死某个正在运行的Job

假设Job_Id为：job_201005310937_0053

执行：hadoop job -kill job_201005310937_0053

更多命令提示：

输入hdfs

[email protected]:/$ hdfs
Usage: hdfs [--config confdir] COMMAND
       where COMMAND is one of:
  dfs                  run a filesystem command on the file systems supported in Hadoop.
  namenode -format     format the DFS filesystem
  secondarynamenode    run the DFS secondary namenode
  namenode             run the DFS namenode
  journalnode          run the DFS journalnode
  zkfc                 run the ZK Failover Controller daemon
  datanode             run a DFS datanode
  dfsadmin             run a DFS admin client
  haadmin              run a DFS HA admin client
  fsck                 run a DFS filesystem checking utility
  balancer             run a cluster balancing utility
  jmxget               get JMX exported values from NameNode or DataNode.
  oiv                  apply the offline fsimage viewer to an fsimage
  oev                  apply the offline edits viewer to an edits file
  fetchdt              fetch a delegation token from the NameNode
  getconf              get config values from configuration
  groups               get the groups which users belong to
  snapshotDiff         diff two snapshots of a directory or diff the
                       current directory contents with a snapshot
  lsSnapshottableDir   list all snapshottable dirs owned by the current user
                        Use -help to see options
  portmap              run a portmap service
  nfs3                 run an NFS version 3 gateway
  cacheadmin           configure the HDFS cache

Most commands print help when invoked w/o parameters.

格式化hadoop之后重新启动平台，输入jps 有时会发现没有namenode进程

查namenode日志文件，/usr/local/hadoop/hadoop-2.4.1/logs 里的namenode相关文件，发现namenode clusterID与datenode的不同造成了错误

分别察看

/usr/local/hadoop/hadoop-2.4.1/hdfs/data/current/VERSION

/usr/local/hadoop/hadoop-2.4.1/hdfs/name/current/VERSION

将clusterID改成相同即可。

时间： 2024-10-08 04:17:50

Spark学习笔记-hadoop命令的相关文章

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② 通过转换来自于其他RDD,如map,filter等 2.创建操作(creation operation):RDD的创建由SparkContext来负责. 3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD. 4.控制操作(control o

spark学习笔记总结-spark入门资料精化

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面

linux学习笔记-type命令

语法: type [-tpa] name 参数: type: 不加任何参数时,type会显示出name是外部命令还是内部bash内置命令 -t: 当加入-t参数时,type会将name以下面这些字眼显示出它的意义 file:表示为外部命令 alias:表示该命令为命令别名所设置的名称 builtin:表示该命令为bash内置的命令功能 -p: 如果后面接的name为外部命令时,才显示完整文件名 -a: 会有path变量定义的路径中,将所有含有name的命令都列出来

memcached学习笔记——存储命令源码分析下篇

上一篇回顾:<memcached学习笔记——存储命令源码分析上篇>通过分析memcached的存储命令源码的过程,了解了memcached如何解析文本命令和mencached的内存管理机制. 本文是延续上一篇,继续分析存储命令的源码.接上一篇内存分配成功后,本文主要讲解:1.memcached存储方式:2.add和set命令的区别. memcached存储方式哈希表(HashTable) 哈希表在实践中使用的非常广泛,例如编译器通常会维护的一个符号表来保存标记,很多高级语言中也显式的支持哈希

c/c++unix/linux基础学习笔记-常用命令和vi的使用

linux 基本命令的使用-命令在ubuntu下面执行,有些命令通用其他linux,有些不通用. 多条命令间用;号隔开,回车后可以一起执行. clear-前屏,pwd显示当前目录,cd跳转目录. sudo [命令] -ubuntu 下以管理员身份运行命令. 一般情况下,运行当前目录下的程序,要用 ./文件名执行. 查看当前shell名称:ps 进入另外一个shell,直接输入shell名称:ksh/tcsh/sh/bash,退出一个shell用:exit. 切换shell命令,如:exec

memcached学习笔记——存储命令源码分析上

原创文章,转载请标明,谢谢. 上一篇分析过memcached的连接模型,了解memcached是如何高效处理客户端连接,这一篇分析memcached源码中的process_update_command函数,探究memcached客户端的set命令,解读memcached是如何解析客户端文本命令,剖析memcached的内存管理,LRU算法是如何工作等等. 解析客户端文本命令客户端向memcached server发出set操作,memcached server读取客户端的命令,客户端的连接状态

MOOS学习笔记3——命令行

MOOS学习笔记3--命令行例程 /** * @code A simple example showing how to use a comms client问问怎么样 */ #include "MOOS/libMOOS/Comms/MOOSAsyncCommClient.h" #include "MOOS/libMOOS/Utils/CommandLineParser.h" bool OnConnect ( void *pParam ) { CMOOSCommC

Spark学习笔记——读写Hbase

1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记--基本CRUD操作 2.

Spark学习笔记——安装和WordCount

1.去清华的镜像站点下载文件spark-2.1.0-bin-hadoop2.7.tgz,因为hadoop安装的是2.7.2的版本 2.把文件解压到/usr/local目录下,解压之后的效果,Hadoop和Spark都在Hadoop用户下 drwxrwxrwx 12 hadoop hadoop 4096 12月 16 10:18 spark-2.1.0-bin-hadoop2.7/ 添加Hadoop用户和用户组 $ sudo addgroup hadoop $ sudo adduser --ing