Hadoop + Spark 在CentOS下的伪分布式部署

一. 软件

centos6.5
jdk1.7
hadoop-2.6.1.tar.gz(在64位平台重新编译好的版本)
scala2.11.7.tgz
spark-1.5.0-bin-hadoop2.6.tgz

二. 安装前准备

1. 在系统全局安装jdk

a. 解压

b. 配置环境变量(可以在/etc/profile.d/下面配置)

export JAVA_HOME=/usr/java/jdk1.7.0_21
export CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH

source /etc/profile

c. 检验Java安装

java -version

2. 创建hadoop用户和组，并在/etc/sudoers中赋予root权限

# groupadd hadoop

# useradd -g hadoop hadoop

# passwd hadoop

# visodu

添加如下：

## Allow root to run any commands anywhere

root ALL=(ALL) ALL
hadoop ALL=(ALL) ALL

3. 修改主机名

vim /etc/hosts

vim /etc/sysconfig/network

hostname

4. 安装ssh服务并建立ssh互信无密码访问

a. 安装openssh服务

rpm –qa | grep ssh

yum install openssh

b. 生成公钥密钥对

以hadoop用户登录

ssh-keygen -t rsa

看到图形输出，表示密钥生成成功，目录下多出两个文件

私钥文件：id_rsa
公钥文件：id_rsa.pub

c. 将公钥文件id_rsa.pub内容放到authorized_keys文件中：

cat id_rsa.pub >> authorized_keys

d. 将公钥文件authorized_keys分发到各dataNode节点：

e. 验证ssh无密码登陆

5. 关闭防火墙

# service iptables stop

三. hadoop配置部署

1. 下载hadoop

http://mirrors.hust.edu.cn/apache/hadoop/common/

2. 配置文件

解压，tar zxvf hadoop-2.6.0.tar.gz

进入配置文件目录：cd hadoop-2.5.1/etc/hadoop

a. core-site.xml

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://nameNode:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>4096</value>
    </property>
</configuration>

b. hdfs-site.xml

<configuration>
    <property>
        <name>dfs.nameservices</name>
        <value>hadoop-cluster1</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>nameNode:50090</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

c. mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobtracker.http.address</name>
        <value>nameNode:50030</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>nameNode:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>nameNode:19888</value>
    </property>
</configuration>

d. yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>nameNode:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>nameNode:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>nameNode:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>nameNode:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>nameNode:8088</value>
    </property>
</configuration>

e. slaves

把作为dataNode的机器名写入该文件中

f. 修改JAVA_HOME

分别在文件hadoop-env.sh和yarn-env.sh中添加JAVA_HOME配置

vim hadoop-env.sh

vim yarn-env.sh

g. 配置系统环境变量

export HADOOP_HOME

3. 格式化文件系统

bin/hdfs namenode –format

4. 启动停止服务

启动

./start-dfs.sh

./start-yarn.sh

停止

./stop-yarn.sh

./stop-dfs.sh

5. 验证

执行系统命令jps查看java进程
http://ip:50070/dfshealth.jsp 打开NameNode web界面
http://ip:19888/jobhistory 打开JobHistory web界面
http://ip:8088/cluster 打开cluster web界面

四. 安装scala

1. 下载 scala2.11.7 http://www.scala-lang.org/

2. 将下载的 scala2.11.7.tgz 放到/usr/local/ 并解压 tar zxvf scala2.11.7.tgz
3. 配置环境变量:

vim /etc/profile
export SCALA_HOME=/usr/local/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin

source /etc/profile

4. 检测scala

scala -version

五. spark部署安装

1. 下载 spark1.5 http://mirrors.cnnic.cn/apache/
2. 解压spark-1.5.0-bin-hadoop2.6.tgz
3. 配置环境变量:

vim /etc/profile

export SPARK_HOME=/app/spark-1.5.0-bin-hadoop2.6

export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin

source /etc/profile

4.进入到spark 的conf 目录下:

cp spark-env.sh.template spark-env.sh

并在 spark-env.sh 文件后加：

###jdk安装目录

export JAVA_HOME=/usr/local/jdk1.7.0_79

###scala安装目录

export SCALA_HOME=/usr/local/scala-2.11.7

###spark集群的master节点的ip

export SPARK_MASTER_IP=192.168.1.104

#export SPARK_WORKER_CORES=2

#export SPARK_WORKER_MEMORY=4g

#export SPARK_MASTER_IP=spark1

#export SPARK_MASTER_PORT=30111

#export SPARK_MASTER_WEBUI_PORT=30118

#export SPARK_WORKER_CORES=2

#export SPARK_WORKER_MEMORY=4g

#export SPARK_WORKER_PORT=30333

#export SPARK_WORKER_WEBUI_PORT=30119

#export SPARK_WORKER_INSTANCES=1

###指定的worker节点能够最大分配给Excutors的内存大小

export SPARK_WORKER_MEMORY=1g

###hadoop集群的配置文件目录

export HADOOP_CONF_DIR=/usr/local/hadoop26/etc/hadoop

###spark集群的配置文件目录

export SPARK_CONF_DIR=/usr/local/spark-1.4.0-bin-hadoop2.6/conf

#spark 性能调优

export SPARK_DAEMON_JAVA_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

6.修改conf目录下面的slaves文件将worker节点都加进去
7.启动spark:

bin/spark-shell
8.查看spark设置：http://ip:4040

更多的资料，参考：https://spark.apache.org/docs

时间： 2024-12-24 06:53:07

Hadoop + Spark 在CentOS下的伪分布式部署的相关文章

[转]CentOS下安装伪分布式Hadoop-1.2.1

From: http://blog.csdn.net/yinan9/article/details/16805275 环境:CentOS 5.10(虚拟机下) [[email protected] hadoop]# lsb_release -a LSB Version: :core-4.0-ia32:core-4.0-noarch:graphics-4.0-ia32:graphics-4.0-noarch:printing-4.0-ia32:printing-4.0-noarch

windows下hadoop的单机伪分布式部署（3）

下面介绍myeclipse与hadoop的集成. 我用的myeclipse版本是8.5. 1.安装hadoop开发插件在hadoop1.2.1版本的安装包contrib/目录下,已经不再提供hadoop-eclipse-pligin-1.2.1.jar; 而是提供了源代码文件,需要我们自行重新编译成jar包文件:这里方便,大家可以从这里下载: hadoop-eclipse-plugin-1.2.1.jar.pdf 由于博客上传文件的类型限制,故添加了pdf后缀,下载之后重命名,去掉".pdf&

windows下hadoop的单机伪分布式部署（1）

hadoop的运行环境应该是在linux环境.如果想在windows环境下安装和运行hadoop,一般有两种方式:一种是VM的方式linux操作系统,这样可以实现全linux环境的hadoop运行:另一种方式安装cygwin模拟linux环境,该方法相对比较简单方便. 本文采取cywin的方式.下面将介绍下cygwin的安装与配置: (1)cygwin的安装下载cygwin安装文件:http://cygwin.com; 我用的是64位版:操作系统为win7: 下载的setup文件实际上只是一个

windows下hadoop的单机伪分布式部署（2）

下面开始hadoop的安装与配置: (1)安装jdk 我安装的是JDK1.7.0_40,windows x64版的下载完之后,直接点击安装, 我的安装路径为默认路径:C:\Program Files\Java\jdk1.7.0_40: 安装完毕后,设置环境变量: JAVA_HOME指向JDk安装目录 PATH指向JDK的bin目录设置完成之后,在cmd中输入java命令,如果出现一下画面,即为安装成功: (2)安装hadoop 下载hadoop,http://hadoop.apache.o

Ubuntu16.04 下 hadoop的安装与配置（伪分布式环境）

注:本文有参考这篇文章 ,但因其中有部分错误,所以在实际操作中遇到了很大的困扰,于是写成了这篇文章供大家使用一.准备 1.1创建hadoop用户 $ sudo useradd -m hadoop -s /bin/bash #创建hadoop用户,并使用/bin/bash作为shell $ sudo passwd hadoop #为hadoop用户设置密码,之后需要连续输入两次密码 $ sudo adduser hadoop sudo #为hadoop用户增加管理员权限 $ su - hado

Centos6下安装伪分布式Hadoop集群

Centos6下安装伪分布式hadoop集群,选取的hadoop版本是apache下的hadoop2.7.1,在一台linux服务器上安装hadoop后,同时拥有namenode,datanode和secondarynamenode等节点的功能,下面简单安装下. 前置准备主要涉及防火墙关闭.jdk安装.主机名修改.ip映射.免密登录设置等. 关闭防火墙有临时和永久,这里使用永久关闭的方式. # 临时关闭 [[email protected] ~]# service iptables stop

Hadoop1 Centos伪分布式部署

前言: 毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环境跑起来,然后在能用的基础上在多想想为什么. 通过这三个礼拜(基本上就是周六周日,其他时间都在加班啊T T)的探索,我目前主要完成的是: 1.在Linux环境中伪分布式部署hadoop(SSH免登陆),运行WordCount实例成功. 2.自己打包hadoop在eclipse

大数据之---hadoop伪分布式部署(HDFS)全网终极篇

1.软件环境RHEL6 jdk-8u45 hadoop-2.8.1.tar.gz ssh xx.xx.xx.xx ip地址 hadoop1 xx.xx.xx.xx ip地址 hadoop2 xx.xx.xx.xx ip地址 hadoop3 xx.xx.xx.xx ip地址 hadoop4 xx.xx.xx.xx ip地址 hadoop5 本次部署只涉及伪分布式部署只是要主机hadoop1 2.伪分布式部署伪分布式部署文档参考官方网站hadoopApache > Hadoop > Apache

hadoop2.5.1伪分布式部署

可参阅官方文档 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html 文件下载: http://mirrors.hust.edu.cn/apache/hadoop/common/ 注:可直接使用2.5.2或2.6.0版本都解决了2.5.1中不稳定bug 1 伪分布式部署以测试通过的为例 Linux version 2.6.32-431.el6.x86