hadoop配置

环境准备

1.1   操作系统:CentOS 6.5

1.2    集群主机: vi /etc/hosts

HostName          IP           Purpose

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

10.18.51.52     master.hadoop

10.18.51.53     slave1.hadoop

10.18.51.54     slave2.hadoop

10.18.51.55     slave3.hadoop

10.18.51.56     slave4.hadoop

10.18.51.57     slave5.hadoop

10.18.51.58     slave6.hadoop

10.18.51.59     slave7.hadoop

10.18.51.60     slave8.hadoop

10.18.51.61     slave9.hadoop

10.18.51.51     slave10.hadoop

10.18.51.50     slave11.hadoop

10.18.51.49     slave12.hadoop

按照上述表格,设置各个主机的主机名称和IP地址(必须是静态的):

(1)       主机名称修改:

可用hostname命令或直接修改文件/etc/sysconfig/network文件:hostname=…

(2)       IP地址修改:

可用ifconfig命令或直接修改文件/etc/sysconfig/network-scripts/ifcfg-eth0(与使用网卡对应文件),在其中主要配置:IP/GETWAY/NETMASK/DNS等。

Linux开机是网络默认是断开的,

设置网络自动开机自动连接:

右击网络链接图标-》 edit connections... -》 选中“etho” 选择edit 出现下面的对话    框  把 connect automatically 选上即可。 
       方法2 修改配置文件
       # vi
/etc/sysconfig/network-scripts/ifcfg-eth0 
       将ONBOOT=no 改成 yes 就表示开机后默认链接etho 
       # /etc/init.d/network restart

编辑/etc/hosts文件,添加如下内容:(每台机器)

10.18.51.52     master.hadoop

10.18.51.53     slave1.hadoop

10.18.51.54     slave2.hadoop

10.18.51.55     slave3.hadoop

10.18.51.56     slave4.hadoop

10.18.51.57     slave5.hadoop

10.18.51.58     slave6.hadoop

10.18.51.59     slave7.hadoop

10.18.51.60     slave8.hadoop

10.18.51.61     slave9.hadoop

10.18.51.51     slave10.hadoop

10.18.51.50     slave11.hadoop

10.18.51.49     slave12.hadoop

编辑/etc/profile文件(或Hadoop用户的
.bash_profile),在其文件末尾添加JDK相关环境变量:

export     JAVA_HOME=/usr/java/jdk1.7.0_67

export     CLASSPATH=.:$JAVA_HOME/lib:$ JAVA_HOME/jre/lib:$CLASSPATH

(直接指定*.jar文件)

export      JAVA_OPTS=”-Xms1024m-Xmx2048m”

export       PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

记住:在REDHAT中,$CLASSPATH  $PATH 一定要放在后面。

export
     JAVA_HOME=/usr/java/jdk1.7.0_67

export
     CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$CLASSPATH

export
     JAVA_OPTS=”-Xms1024m-Xmx2048m”

export
      PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

 有的网站:CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

然后执行: source
/etc/profile ,使配置立即生效。

运行 java -version 时候可能会提示权限不够,只要修改相应文件,添加可执行权限即可。

vi /etc/profile 也可以一次性配置先(建议初学者先不一次性配置)

export 
JAVA_HOME=/usr/java/jdk1.7.0_67

export 
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib:$CLASSPATH

export 
JAVA_OPTS="-Xms1024m-Xmx2048m"

export  PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export
HADOOP_HOME=/usr/hadoop

export
HADOOP_COMMON_HOME=$HADOOP_HOME

export
HADOOP_HDFS_HOME=$HADOOP_HOME

export
HADOOP_MAPRED_HOME=$HADOOP_HOME

export
HADOOP_YARN_HOME=$HADOOP_HOME

export
HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib

export
HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export
HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

export
PATH=$PATH:/usr/apache-ant/bin

export
JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native

推出之后,执行:source
/etc/profile

关闭防火墙,SELINUX关不关闭应该无所谓

查看SELinux状态:

1) /usr/sbin/sestatus -v
     ##如果SELinux status参数为enabled即为开启状态

SELinux status:            
  enabled

2) getenforce          
     ##也可以用这个命令检查

关闭SELinux:

1) 临时关闭(不用重启机器):

setenforce 0  
            ##设置SELinux 成为permissive模式

##setenforce 1 设置SELinux 成为enforcing模式

2) 修改配置文件需要重启机器:

修改/etc/selinux/config 文件

将SELINUX=enforcing改为SELINUX=disabled

重启机器即可

service iptables status可以查看到iptables服务的当前状态

1) 重启后生效 
开启: chkconfig iptables on 
关闭: chkconfig iptables off 或者 /sbin/chkconfig --level 2345 iptables off
2) 即时生效,重启后失效
service 方式
开启: service iptables start 
关闭: service iptables stop
iptables方式
查看防火墙状态:
/etc/init.d/iptables status
暂时关闭防火墙:
/etc/init.d/iptables stop
重启iptables:
/etc/init.d/iptables restart

配置主机名(在系统安装的时候就已经指定了 )和Ip,并且设置自启动,服务器两个网卡,目前选择第一个网卡插口

设置各个主机的主机名称和IP地址(必须是静态的):

(3)      
主机名称修改:

可用hostname命令或直接修改文件/etc/sysconfig/network文件:hostname=…

(4)      
IP地址修改:

可用ifconfig命令或直接修改文件/etc/sysconfig/network-scripts/ifcfg-eth0(与使用网卡对应文件),在其中主要配置:IP/GETWAY/NETMASK/DNS等。

Linux开机是网络默认是断开的,

设置网络自动开机自动连接:

右击网络链接图标-》 edit connections... -》 选中“etho” 选择edit 出现下面的对话    框  把 connect automatically 选上即可。

或者:# vi /etc/sysconfig/network-scripts/ifcfg-eth0 
       将ONBOOT=no 改成 yes 就表示开机后默认链接etho 
       # /etc/init.d/network restart

修改主机名:

           /etc/sysconfig/network中修改。

Hadoop安装配置(每台机器)

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html;很好很详细的网址

下载Hadoop安装包:hadoop安装包以两种形式发布,二进制形式和源码形式。这里我们下载二进制发布包。(注意:如何操作系统时64位,则需下载源码包进行编译,重新生成本地库文件,因为默认的二进制包是在32位环境下编译的)。

2.2 将Hadoop包解压到制定目录,如:/usr/hadoop

cd /usr/hadoop

tar –zxvf hadoop2.3.0.tar.gz

2.3 配置hadoop环境变量
在root用户下:/etc/profile里面添加即可,添加内容如下:(上面说过,可以一次性都配置完)

# hadoop

root下,在/etc/profile中添加:不用上面的,用下面的:

export
HADOOP_HOME=/usr/hadoop

export
HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_YARN_HOME=$HADOOP_HOME

export
HADOOP_HDFS_HOME=$HADOOP_HOME

export
HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export
YARN_CONF_DIR=$HADOOP_CONF_DIR

export
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export
HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native (不要黄的)

export
HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

2.4 编辑<HADOOP_HOME>/etc/hadoop/hadoop-env.sh文件与yarn-env.sh文件,添加JAVA_HOME变量    下面是配置文件详解的网址http://yq1518602434.blog.163.com/blog/static/202937084201322331913546/

export
JAVA_HOME=/usr/java/jdk1.7.0_67/

2.5 编辑<HADOOP_HOME>/etc/hadoop/core-site.xml文件,内容如下:

<property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/hadoop/tmp</value>   #tmp 需提前创建

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://master.hadoop:9000</value>

修改成:试试

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<property>                                                                        #可选

<name>io.file.buffer.size</name>

<value>131072</value>

</property>

2.6编辑<HADOOP_HOME>/etc/hadoop/hdfs-site.xml文件,内容如下:

                   vi
hdfs-site.xml

<property>

<name>dfs.replication</name>      #enable

<value>3</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>     #enable

<value>file:/usr/hadoop/dfs/name</value>   # created

</property>

<property>

<name>
dfs.datanode.data.dir </name>       
#enable

<value>
file:/usr/hadoop/dfs/data </value>    
# created

</property>

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

2.7编辑<HADOOP_HOME>/etc/hadoop/yarn-site.xml文件,内容如下:

         为何要配置 yarn:           http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce.shuffle</value>
或者:
<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop.main</value>

</property>

<property>

<name>
yarn.resourcemanager.address</name>

<value> hadoop.main:8032</value>

</property>

<property>

<name>
yarn.resourcemanager.scheduler.address</name>

<value> hadoop.main:8030</value>

</property>

<property>

<name>
yarn.resourcemanager.resource-tracker.address</name>

<value> hadoop.main:8031</value>

</property>

<property>

<name>
yarn.resourcemanager.admin.address</name>

<value> hadoop.main:8033</value>

</property>

<property>

<name>
yarn.resourcemanager.webapp.address</name>

<value> hadoop.main:8088</value>

</property>

2.8编辑<HADOOP_HOME>/etc/hadoop/mapred-site.xml文件,内容如下:

<property>

<name>mapreduce.framework.name</name>       #Enable

<value>yarn</value>

</property>

<property>

以下不要配置的:

<name>mapreduce.jobhistory.address</name>

<value>hadoop.main:10020</value>

</property>

<property>

<name>
mapreduce.jobhistory.webapp.address </name>

<value> hadoop.main:19888</value>

</property>

2.9 编辑<HADOOP_HOME>/etc/hadoop/slaves与masters文件

masters文件:(每个Slave机器上必须有)

配置masters和slaves文件来设置主从结点,注意最好使用主机名,并且保证机器之间通过主机名可以互相访问,每个主机名一行。

master.hadoop       在master文件中

slave1.hadoop         以下都在slaves文件中:

slave2.hadoop

slave3.hadoop

slave4.hadoop

slave5.hadoop

slave6.hadoop

slave7.hadoop

slave8.hadoop

slave9.hadoop

slave10.hadoop

slave11.hadoop

slave12.hadoop

2.10 上述配置任务完成之后,首先格式化分布式文件系统:

命令:hdfs namenode –format
(普通用户进行操作)


start-all.sh 
启动集群。

查看集群状态:

./bin/hdfs dfsadmin –report 

5. 查看文件块组成:   

./bin/hdfsfsck / -files -blocks 

6. 查看HDFS:    ?? 

http://16.187.94.161:50070 

7. 查看RM:    ?? 

http:// 16.187.94.161:8088 

2.13 运行WordCount程序

在Master主机上创建三个文本文件:file1.txt,file2.txt,file3.txt,
并利用以下命令在分布式文件系统上创建文件夹,且将本地文件file*.txt上传到hdfs。

hdfs dfs    -ls  /

hdfs dfs
–mkdir /in                     # 在hdfs上创建文件夹

hdfs dfs
–put file*.txt /in     #将本地文件上传到hdfs

注意:hadoop 默认运行在安全模式,可以使用命令:hadoop dfsadmin –safemode leave退出安全模式。

将当前目录切换到/usr/hadoop:执行下面命令允许hadoop自带wordcount程序。

Hadoop jar 
share/hadoop/mapreduce/hadoop-mapreduce-example.jar wordcount /in /out

注意:/out目录不能提前创建好,有程序自己创建。

时间: 2025-01-06 23:12:23

hadoop配置的相关文章

hadoop配置名称节点HA基本流程

hadoop配置HA(NN) 配置信息参考hadoop配置名称节点HA原理 1.停止所有进程 stop-dfs.sh 2.配置hdfs-site.xml和core-site.xml 3.将s201的id_rsa发送到s205(确保两个NN能同时ssh到各个DN) 4.将s201的工作目录复制到s205 5.启动服务journalnode hadoop-daemons.sh start journalnode 6.初始化journalnode hdfs namenode -initializeSh

Hadoop配置过程!

1             Hadoop配置 注意事项:关闭所有防火墙 服务器 IP 系统 Master 10.0.0.9 Centos 6.0 X64 Slave1 10.0.0.11 Centos 6.0 X64 Slave2 10.0.0.12 Centos 6.0 X64 Hadoop版本:hadoop-0.20.2.tar.gz 1.1      在master:(在slave1和slave2上操作和以下相同) #vi /etc/hosts        三台机器相同配置 10.0.0

Hadoop技术内幕——Hadoop配置信息处理

配置系统是复杂软件必不可少的一部分,org.apache.hadoop.conf.Configuration在Hadooop各个子项目中发挥着重要作用. windows系统广泛使用一种特殊批的ASCII文件.ini作为其主要配置文件标准,被称为(Initialization File)或概要文件(profile):java中JDK提供了java.util.Properties类处理简单的配置文件.而Hadoop采用自己独有的配置文件管理系统. Hadoop的配置文件的根元素是configurat

hadoop配置错误

经过上一周的郁闷期(拖延症引发的郁闷),今天终于开始步入正轨了.今天主要是解决hadoop配置的错误以及网络时断时续的问题. 首先说明一下之前按照这篇文章的方法配置完全没有问题,但是等我配置好了发现hadoop的版本和我的需求有点不一样,于是重新安装低版本的hadoop,结果就遇到问题了. 一,Hadoop错误 1. dataNode总是启动不了?  no datanode to stop 怎么解决的呢.不需要hadoop namenode -format:把 dfs/data 删除即可,res

Hadoop配置过程实践!

1             Hadoop配置 注意事项:关闭所有防火墙 服务器 IP 系统 Master 10.0.0.9 Centos 6.0 X64 Slave1 10.0.0.11 Centos 6.0 X64 Slave2 10.0.0.12 Centos 6.0 X64 Hadoop版本:hadoop-0.20.2.tar.gz 1.1      在master:(在slave1和slave2上操作和以下相同) #vi /etc/hosts        三台机器相同配置10.0.0.

Hadoop配置信息处理

1 配置文件简介 配置文件是一个灵活系统不可缺少的一部分,虽然配置文件非常重要,但却没有标准. 1.1 Java配置文件 JDK提供了java.util.Properties类,用于处理简单的配置文件.Properties很早就被引入到Java的类库中,并且一直没有什么变化.它继承自Hashtable,表示了一个持久的属性集,该集可保存在流中或从流中加载.属性列表中每个键及其对应值都是字符串类型. public class Properties extends Hashtable<Object,

Hadoop学习之第一章节:Hadoop配置安装

一.配置虚拟机三台 1.网络配置 虚拟化软件: Vmware Workstations  10.7z Linux系统:  Centos 6.5-x86_64 采用4台安装Linux环境的机器来构建一个小规模的分布式集群. 集群机器详细信息 1.虚拟化的网络配置方式:桥接网络 2.IP地址设置为固定IP地址 3.主机名配置,需要修改一下地方 (1)配置vi  /etc/hostname (2)配置vi /etc/sysconfig/network (3)配置vi /etc/hosts 4.关闭防火

Hadoop配置参数

Hadoop的配置文件解释 hadoop-env.sh: 用于定义hadoop运行环境相关的配置信息,比如配置JAVA_HOME环境变量.为hadoop的JVM指定特定的选项.指定日志文件所在的目录路径以及master和slave文件的位置等: core-site.xml: 用于定义系统级别的参数,它作用于全部进程及客户端,如HDFS URL.Hadoop的临时目录以及用于rack-aware集群中的配置文件的配置等,此中的参数定义会覆盖core-default.xml文件中的默认配置: hdf

hadoop初次接触----------虚拟机、SSH互信及hadoop配置

部署环境: OS:Fedora 23 JDK:jdk-7u80-linux-x64 Hadoop:hadoop-2.7.2 VMWare:VMware Workstation 12 Pro 安装JDK rpm -ivh jdk-7u80-linux-x64.rpm 配置环境变量 用vim编辑器打开/etc/profile文件,加入环境变量的定义 JAVA_HOME=/usr/java/jdk1.7.0_80/ PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME

Hadoop1.2.1安装笔记3:hadoop配置

在/usr目录下建立 hadoop文件夹,赋予hadoop用户权限 (master) [[email protected] usr]$ sudo mkdir hadoop [[email protected] usr]$ ls -al  total 156  drwxr-xr-x. 2 root root 4096 Jul 31 00:17 hadoop  [[email protected] usr]$ sudo chown -R hadoop:hadoop hadoop [[email pr