Hadoop Spark 集群简便安装总结

本人实际安装经验,目的是为以后快速安装,仅供自己参考。

一、Hadoop

1、操作系统一如既往:①setup关掉防火墙、②vi /etc/sysconfig/selinux,改SELINUX=disabled 。(3)同时应该卸载掉OpenJdk。④并在每台机器上建立用户,如:useradd hadoop -p 123456 (还可 -d 指定目录) 。

2、ssh。①让集群有相同的/etc/hosts文件。②在每台机器上用hadoop用户执行 ssh-keygen。在其中一台上用户目录下的.ssh文件夹下执行: cat id_rsa.pub >>authorized_keys ;之后将authorized_keys拷贝出来,用UE打开,将其他集群中的id_rsa.pub内容添加到后面。还有给所在目录:chmod 600 *

最后把笔记本上的 hosts、authorized_keys再拷到相应的位置,并且以后可以复用了。

3、上传并 tar -zxvf jdk到某个文件夹,如:/opt/jdk 。

4、设置/etc/profile。这里一下在文件最后设置许多变量,方便等下拷贝到所有的机器,然后source profile(或重启)生效。(注意:最好先用SSH Secure File Transfer Client工具拷贝过来一个profile文件,再用ultraEdit编辑,用win记事本不行)

export JAVA_HOME=/opt/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/hadoop/hadoop2.7
#export HBASE_HOME=/home/hadoop/hbase
#export ZOOKEEPER_HOME=/home/hadoop/zookeeper
export SCALA_HOME=/home/hadoop/scala
export SPARK_HOME=/home/hadoop/spark
#export KAFKA_HOME=/home/hadoop/kafka
#export HIVE_HOME=/home/hadoop/hive
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

5、修改hadoop参数文件。在其中一台用户目录下解压hadoop,结果可如:hadoop2.7 。hadoop会默认许多参数,如果是单机测试,甚至都不用修改参数。但我们是集群,需要修改几个必需的。默认配置可以查找 **default.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key(网上也有默认:http://hadoop.apache.org/docs)。下面是尽量少配。

(1)core-site.xml ,2个配置

<configuration>
<property>
  <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/tmp</value>
    <description>配了这个,以后hdfs-site.xml就不用配data和name文件夹了,连建立都不用</description>
</property>

<property>
   <name>fs.defaultFS</name>
     <value>hdfs://master:9000</value>
     <description>这个也应该是必须的,而且必须写主机名,连IP都不行</description>
</property>
</configuration>

(2)hdfs-site.xml ,如果服务器大于3台就不用了

<configuration>
    <property>
      <name>dfs.replication</name>
        <value>2</value>
        <description>复制几份?默认3,如果大于3台服务器,就不用了 </description>
    </property>
</configuration>

(3)mapred-site.xml

<configuration>
 <property>
   <name>mapreduce.framework.name</name>
     <value>yarn</value>
       <description>The runtime framework for executing MapReduce jobs.
         Can be one of local, classic or yarn.默认是local,适合单机
       </description>
  </property>
</configuration>

(4)yarn-site.xml

<configuration>
<property>
    <description>既然选择了yarn,就得填,这个就是以前的master配置了</description>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
</property>
</configuration>

(5)slaves。 每行一个slave主机名。

(6)hadoop-env.sh 和 yarn-env.sh 。其内容虽然看着有JAVA_HOME的配置,但好像不生效,还得再写一遍JAVA_HOME配置。

以上虽然看起来很多,但实际就是告诉他:数据的存放目录(core),MR要用yarn,yarn的master是谁,如此而已。 把以上文件存起来,以后稍加修改后,就可重复利用了。

5、启动与测试

(1)格式化HDFS: HADOOPHOME/bin/hdfsnamenode?format(2)启动集群:HADOOP_HOME/sbin/start-all.sh

(3)在master和slaver的sbin下执行jps。

(4)hdfs dfs -mkdir /xxx

hdfs dfs -ls /

6、UI访问

(1)状态:netstat -nap | grep 54310

(2)http://:8088

NameNode:http://:50070

JobTracker:http://:50030

所以,安装简单来说就是:ssh、配JAVA_HOME / HADOOP_HOME等profile参数、配 数据存放目录 / MR要用yarn 及 master是谁

我还将上面涉及到的文件打包成文件,可 下载 重复使用。

以上是Hadoop的配置,SPARK改日再续。

                                      河南省公安厅:党玉龙

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-20 19:39:05

Hadoop Spark 集群简便安装总结的相关文章

Hadoop记录-Apache hadoop+spark集群部署

Hadoop+Spark集群部署指南 (多节点文件分发.集群操作建议salt/ansible) 1.集群规划节点名称 主机名 IP地址 操作系统Master centos1 192.168.0.1 CentOS 7.2Slave1 centos2 192.168.0.2 CentOS 7.2Slave2 centos2 192.168.0.3 Centos 7.22.基础环境配置2.1 hostname配置1)修改主机名在192.168.0.1 root用户下执行:hostnamectl set

Spark学习笔记—01 Spark集群的安装

一.概述 关于Spark是什么.为什么学习Spark等等,在这就不说了,直接看这个:http://spark.apache.org, 我就直接说一下Spark的一些优势: 1.快 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上.Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流. 2.易用 Spark支持Java.Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用.而且Sp

Hadoop+Spark:集群环境搭建

环境准备: 在虚拟机下,大家三台Linux ubuntu 14.04 server x64 系统(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.04.2-server-amd64.iso): 192.168.1.200 master 192.168.1.201 node1 192.168.1.202 node2 在Master上安装Spark环境: 具体请参考我的文章:<Hadoop:搭建hadoop集群> Spark集群环境搭建: 搭建h

Java调用Shell命令和脚本,致力于hadoop/spark集群

前言 说明的是,本博文,是在以下的博文基础上,立足于它们,致力于我的大数据领域! http://kongcodecenter.iteye.com/blog/1231177 http://blog.csdn.net/u010376788/article/details/51337312 http://blog.csdn.net/arkblue/article/details/7897396 第一种:普通做法 首先,编号写WordCount.scala程序. 然后,打成jar包,命名为WC.jar.

ubuntu14.04中spark集群安装配置

一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu14.04中配置Spark

spark集群安装配置

spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu1

Spark 个人实战系列(1)--Spark 集群安装

前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析. spark官网: http://spark.apache.org/downloads.html *)安装和部署 环境: 172.16.1.109~172.16.1.111三台机器(对应域名为tw-node109~tw-node111), centos6.4, 已部署cdh4 目标是: 搭建一个spar

spark集群安装并集成到hadoop集群

前言 最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7 分布式集群安装与配置 本篇博客主要说明,如果搭建spark集群并集成到hadoop 安装流程 安装spark需要先安装scala 注意在安装过程中需要对应spark与scala版本, spark 也要跟hadoop对应版本,具体的可以在spark官网下载页面查看 下载sacla并安装 https://www.scala-lang.org/files/archive

使用docker安装部署Spark集群来训练CNN(含Python实例)

使用docker安装部署Spark集群来训练CNN(含Python实例) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需转载,请附上本文链接,不甚感激! http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器,每台有8个tesla-GPU,然而平时做实验都只使用了其中的一个GPU,实在暴遣天物! 于是想用spark来把这些GPU都利用起来.听闻d