以下的安装说明适用于Mac、Hadoop2.9.0
一、安装前提
- 支持的平台
GNU/Linux可以作为开发、生产运行环境,在GNU/Linux部署的集群可以支持2000+个节点。
也支持windows平台。
- 依赖的软件
Java,Hadoop2.7以上版本要求Java版本7以上;
安装了ssh,并且sshd是运行状态,hadoop脚本需要使用ssh远程管理Hadoop后台进程。
二、下载安装包
下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common/
三、安装
1、准备
- 解压缩hadoop-2.9.0.tar.gz
- 配置Java环境变量
修改etc/hadoop/hadoop-env.sh ,添加如下内容:
# set to the root of your Java installation export JAVA_HOME=/usr/java/latest
- JAVA_HOME需要根据本机的实际路径进行配置,如:
export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_101.jdk/Contents/Home
- 执行如下命令,查看hadoop脚本的使用说明
$ bin/hadoop Usage: hadoop [--config confdir] [COMMAND | CLASSNAME] CLASSNAME run the class named CLASSNAME or where COMMAND is one of: fs run a generic filesystem user client version print the version jar <jar> run a jar file note: please use "yarn jar" to launch YARN applications, not this command. checknative [-a|-h] check native hadoop and compression libraries availability distcp <srcurl> <desturl> copy file or directories recursively archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive classpath prints the class path needed to get the Hadoop jar and the required libraries credential interact with credential providers daemonlog get/set the log level for each daemon trace view and modify Hadoop tracing settings Most commands print help when invoked w/o parameters.
四、配置
hadoop支持三种运行模式:
本地(独立)模式:Local (Standalone) Mode
伪分布式模式:Pseudo-Distributed Mode
分布式模式:Fully-Distributed Mode
伪分布式模式配置
Hadoop支持单节点运行伪分布式模式集群,hadoop后台进程在各自单独的Java进程里运行。
1.配置HDFS
etc/hadoop/core-site.xml:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
etc/hadoop/hdfs-site.xml:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
2.配置ssh无密码登录
上面提到,hadoop脚本需要使用ssh远程管理Hadoop后台进程。所以,即使是伪分布式模式,如果没有配置无密码登录,那么每次启动hadoop服务,都会要求输入用户密码。
执行下面的命令,如果提示输入密码,需要继续配置,否则已经配置了无密码登录。
$ ssh localhost
执行下面的命令,配置ssh无密码登录:
$ ssh-keygen -t rsa -P ‘‘ -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys
说明:authorized_keys文件的权限必须是0600。
3.启动HDFS并测试
3.1 格式化文件系统
$ bin/hdfs namenode -format
3.2 启动NameNode、DataNode
$ sbin/start-dfs.sh
日志默认路径:$HADOOP_LOG_DIR,缺省路径:$HADOOP_HOME/logs。
3.3 通过web界面查看NameNode:
3.4 创建执行MapReduce job需要的HDFS目录:
$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>
3.5 复制文件到分布式文件系统:
$ bin/hdfs dfs -put etc/hadoop input
3.6 运行样例:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.0.jar grep input output ‘dfs[a-z.]+‘
3.7 查看样例运行结果:
复制到本地查看
$ bin/hdfs dfs -get output output $ cat output/*
或者直接在分布式文件系统中查看:
$ bin/hdfs dfs -cat output/*
3.8 可以运行下面的命令关闭dfs:
$ sbin/stop-dfs.sh
4.YARN单节点模式配置
4.1 配置etc/hadoop/mapred-site.xml:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
etc/hadoop/yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
4.2 启动ResourceManager、NodeManager:
$ sbin/start-yarn.sh
4.3 通过web界面查看ResourceManager:
4.4 可以运行下面的命令关闭YARN后台进程:
$ sbin/stop-yarn.sh
原文地址:https://www.cnblogs.com/pugongying017/p/9616095.html