本人实际安装经验,目的是为以后快速安装,仅供自己参考。
一、Hadoop
1、操作系统一如既往:①setup关掉防火墙、②vi /etc/sysconfig/selinux,改SELINUX=disabled 。(3)同时应该卸载掉OpenJdk。④并在每台机器上建立用户,如:useradd hadoop -p 123456 (还可 -d 指定目录) 。
2、ssh。①让集群有相同的/etc/hosts文件。②在每台机器上用hadoop用户执行 ssh-keygen。在其中一台上用户目录下的.ssh文件夹下执行: cat id_rsa.pub >>authorized_keys ;之后将authorized_keys拷贝出来,用UE打开,将其他集群中的id_rsa.pub内容添加到后面。还有给所在目录:chmod 600 *
最后把笔记本上的 hosts、authorized_keys再拷到相应的位置,并且以后可以复用了。
3、上传并 tar -zxvf jdk到某个文件夹,如:/opt/jdk 。
4、设置/etc/profile。这里一下在文件最后设置许多变量,方便等下拷贝到所有的机器,然后source profile(或重启)生效。(注意:最好先用SSH Secure File Transfer Client工具拷贝过来一个profile文件,再用ultraEdit编辑,用win记事本不行)
export JAVA_HOME=/opt/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/hadoop/hadoop2.7
#export HBASE_HOME=/home/hadoop/hbase
#export ZOOKEEPER_HOME=/home/hadoop/zookeeper
export SCALA_HOME=/home/hadoop/scala
export SPARK_HOME=/home/hadoop/spark
#export KAFKA_HOME=/home/hadoop/kafka
#export HIVE_HOME=/home/hadoop/hive
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
5、修改hadoop参数文件。在其中一台用户目录下解压hadoop,结果可如:hadoop2.7 。hadoop会默认许多参数,如果是单机测试,甚至都不用修改参数。但我们是集群,需要修改几个必需的。默认配置可以查找 **default.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key(网上也有默认:http://hadoop.apache.org/docs)。下面是尽量少配。
(1)core-site.xml ,2个配置
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
<description>配了这个,以后hdfs-site.xml就不用配data和name文件夹了,连建立都不用</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
<description>这个也应该是必须的,而且必须写主机名,连IP都不行</description>
</property>
</configuration>
(2)hdfs-site.xml ,如果服务器大于3台就不用了
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
<description>复制几份?默认3,如果大于3台服务器,就不用了 </description>
</property>
</configuration>
(3)mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>The runtime framework for executing MapReduce jobs.
Can be one of local, classic or yarn.默认是local,适合单机
</description>
</property>
</configuration>
(4)yarn-site.xml
<configuration>
<property>
<description>既然选择了yarn,就得填,这个就是以前的master配置了</description>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
(5)slaves。 每行一个slave主机名。
(6)hadoop-env.sh 和 yarn-env.sh 。其内容虽然看着有JAVA_HOME的配置,但好像不生效,还得再写一遍JAVA_HOME配置。
以上虽然看起来很多,但实际就是告诉他:数据的存放目录(core),MR要用yarn,yarn的master是谁,如此而已。 把以上文件存起来,以后稍加修改后,就可重复利用了。
5、启动与测试
(1)格式化HDFS: HADOOPHOME/bin/hdfsnamenode?format(2)启动集群:HADOOP_HOME/sbin/start-all.sh
(3)在master和slaver的sbin下执行jps。
(4)hdfs dfs -mkdir /xxx
hdfs dfs -ls /
6、UI访问
(1)状态:netstat -nap | grep 54310
(2)http://:8088
NameNode:http://:50070
JobTracker:http://:50030
所以,安装简单来说就是:ssh、配JAVA_HOME / HADOOP_HOME等profile参数、配 数据存放目录 / MR要用yarn 及 master是谁 。
我还将上面涉及到的文件打包成文件,可 下载 重复使用。
以上是Hadoop的配置,SPARK改日再续。
河南省公安厅:党玉龙
版权声明:本文为博主原创文章,未经博主允许不得转载。