Spark学习之路 (五)Spark伪分布式安装

讨论QQ:1586558083

目录

正文

回到顶部

一、JDK的安装

JDK使用root用户安装

1.1 上传安装包并解压

[[email protected] soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/

1.2 配置环境变量

[[email protected] soft]# vi /etc/profile
#JAVA
export JAVA_HOME=/usr/local/jdk1.8.0_73
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin 

1.3 验证Java版本

[[email protected] soft]# java -version

回到顶部

二、配置配置ssh localhost

使用hadoop用户安装

2.1 检测

正常情况下,本机通过ssh连接自己也是需要输入密码的

2.2 生成私钥和公钥秘钥对

[[email protected] ~]$ ssh-keygen -t rsa

2.3 将公钥添加到authorized_keys

[[email protected] ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

2.4 赋予authorized_keys文件600的权限

[[email protected] ~]$ chmod 600 ~/.ssh/authorized_keys 

2.5 修改Linux映射文件(root用户)

[[email protected] ~]$ vi /etc/hosts

2.6 验证

[[email protected] ~]$ ssh hadoop1

此时不需要输入密码,免密登录设置成功。

回到顶部

三、安装Hadoop-2.7.5

使用hadoop用户

3.1 上传解压缩

[[email protected] ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/

3.2 创建安装包对应的软连接

为解压的hadoop包创建软连接

[[email protected] ~]$ cd apps/
[[email protected] apps]$ ll
总用量 4
drwxr-xr-x. 9 hadoop hadoop 4096 12月 24 13:43 hadoop-2.7.5
[[email protected] apps]$ ln -s hadoop-2.7.5/ hadoop

3.3 修改配置文件

进入/home/hadoop/apps/hadoop/etc/hadoop/目录下修改配置文件

(1)修改hadoop-env.sh

[[email protected] hadoop]$ vi hadoop-env.sh 
export JAVA_HOME=/usr/local/jdk1.8.0_73 

(2)修改core-site.xml

[[email protected] hadoop]$ vi core-site.xml 

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop1:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/hadoop/data/hadoopdata</value>
        </property>
</configuration>

(3)修改hdfs-site.xml

[[email protected] hadoop]$ vi hdfs-site.xml 

dfs的备份数目,单机用1份就行

        <property>
                <name>dfs.namenode.name.dir</name>
                <value>/home/hadoop/data/hadoopdata/name</value>
                <description>为了保证元数据的安全一般配置多个不同目录</description>
        </property>

        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/home/hadoop/data/hadoopdata/data</value>
                <description>datanode 的数据存储目录</description>
        </property>

        <property>
                <name>dfs.replication</name>
                <value>2</value>
                <description>HDFS 的数据块的副本存储个数, 默认是3</description>
        </property>    

(4)修改mapred-site.xml

[[email protected] hadoop]$ cp mapred-site.xml.template mapred-site.xml
[[email protected] hadoop]$ vi mapred-site.xml

mapreduce.framework.name:指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行 。

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

(5)修改yarn-site.xml

[[email protected] hadoop]$ vi yarn-site.xml 
     <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
        </property>

3.4 配置环境变量

千万注意:

1、如果你使用root用户进行安装。 vi /etc/profile 即可 系统变量

2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量

[[email protected] ~]$ vi .bashrc
#HADOOP_HOME export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效

[[email protected] bin]$ source ~/.bashrc 

3.5 查看hadoop版本

[[email protected] ~]$ hadoop version

3.6 创建文件夹

文件夹的路径参考配置文件hdfs-site.xml里面的路径

[[email protected] ~]$ mkdir -p /home/hadoop/data/hadoopdata/name
[[email protected] ~]$ mkdir -p /home/hadoop/data/hadoopdata/data

3.7 Hadoop的初始化

[[email protected] ~]$ hadoop namenode -format

3.8 启动HDFS和YARN

[[email protected] ~]$ start-dfs.sh [[email protected] ~]$ start-yarn.sh

3.9 检查WebUI

浏览器打开端口50070:http://hadoop1:50070

其他端口说明:  port 8088: cluster and all applications  port 50070: Hadoop NameNode  port 50090: Secondary NameNode  port 50075: DataNode

回到顶部

四、Scala的安装(可选)

使用root安装

4.1 下载

Scala下载地址http://www.scala-lang.org/download/all.html

选择对应的版本,此处在Linux上安装,选择的版本是scala-2.11.8.tgz

4.2 上传解压缩

[[email protected] hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/

4.3 配置环境变量

[[email protected] hadoop]# vi /etc/profile
#Scala
export SCALA_HOME=/usr/local/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH

保存并使其立即生效

[[email protected] scala-2.11.8]# source /etc/profile

4.4 验证是否安装成功

[[email protected] ~]# scala -version

回到顶部

五、Spark的安装

5.1 下载安装包

下载地址:

http://spark.apache.org/downloads.html

http://mirrors.hust.edu.cn/apache/

https://mirrors.tuna.tsinghua.edu.cn/apache/

5.2 上传解压缩

[[email protected] ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/

5.3 为解压包创建一个软连接

[[email protected] ~]$ cd apps/
[[email protected] apps]$ ls
hadoop  hadoop-2.7.5  spark-2.3.0-bin-hadoop2.7
[[email protected] apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark

5.4 进入spark/conf修改配置文件

[[email protected] apps]$ cd spark/conf/

复制spark-env.sh.template并重命名为spark-env.sh,并在文件最后添加配置内容

[[email protected] conf]$ cp spark-env.sh.template spark-env.sh
[[email protected] conf]$ vi spark-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_73
export SCALA_HOME=/usr/share/scala-2.11.8
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077

5.5 配置环境变量

[[email protected] conf]$ vi ~/.bashrc 
#SPARK_HOME
export SPARK_HOME=/home/hadoop/apps/spark
export PATH=$PATH:$SPARK_HOME/bin

保存使其立即生效

[[email protected] conf]$ source ~/.bashrc

5.6 启动Spark

[[email protected] ~]$  ~/apps/spark/sbin/start-all.sh 

5.7 查看进程

5.8 查看web界面

http://hadoop1:8080/

原文地址:https://www.cnblogs.com/liuys635/p/11002691.html

时间: 2024-10-04 06:14:43

Spark学习之路 (五)Spark伪分布式安装的相关文章

Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装

实施Hadoop集群 --伪分布式安装 准备与配置安装环境 安装虚拟机和linux,虚拟机推荐使用vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便.ESXi还可以通过拷贝镜像文件复制虚拟机,复制后自动修改网卡号和ip,非常快捷.如果只是实验用途,硬盘大约预留20-30G空间. 以Centos为例,分区可以选择默认[如果想要手动分区,请参考博客:http://blog.csdn.net/zjf280441589/article/details/175485

Hadoop日记Day3---Hadoop的伪分布式安装

导录 比较仔细的读者可能发现,注意本章的图片又不太对劲的地方,那就是linux中的主机名有的是hadoop,有的是localhost,是由于使用的不同的电脑编辑的本文章,有的电脑上并没有修改主机名,一直使用默认的localhost主机名,不影响大家的学习,只是主机名不一样,其他的都一样,大家注意一下就可以了,自己是什么主机名,就把他看成自己的主机名就可以了,文章中的localhost和hadoop只是不同的主机名,他们的目录结构都是一样的.还有就是一下的软件下载地址:http://pan.bai

Hbase伪分布式安装

前面的文章已经讲过hadoop伪分布式安装,这里直接介绍hbase伪分布式安装. 1. 下载hbase 版本hbase 1.2.6 2. 解压hbase 3. 修改hbase-env.sh 新增如下内容 export JAVA_HOME=/home/cauchy/software/jdk export HADOOP_HOME=/home/cauchy/software/hadoop export HBASE_HOME=/home/cauchy/software/hbase export HBAS

Zookeeper 初体验之——伪分布式安装(转)

原文地址: http://blog.csdn.net/salonzhou/article/details/47401069 简介 Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目.Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以为分布式应用提供相当多的服务,诸如统一命名服务,配置管理,状态同步和组服务等.Zookeeper 接口简单,开发人员不必过多地纠结在分布式系统编程

HBase基础和伪分布式安装配置

一.HBase(NoSQL)的数据模型 1.1 表(table),是存储管理数据的. 1.2 行键(row key),类似于MySQL中的主键,行键是HBase表天然自带的,创建表时不需要指定 1.3 列族(column family),列的集合. 一张表中有多个行健,一个行健读取出来的是一条记录,列族和MySQL中的列差不多,但是它是列的集合 HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的. HBase表中的数据存储在本地磁盘上的时候,每个列族单独一个作为文件存储. 上图表

Hadoop伪分布式安装

本文介绍的主要是Hadoop的伪分布式的搭建以及遇到的相关问题的解决,做一下记录,jdk的安装这里就不做太多的介绍了,相信大家根据网上的安装介绍很快就能安装成功. 环境 操作系统 Oracle VM VirtualBox-rhel-6.4_64   本机名称 yanduanduan   本机IP 192.168.1.102   JDK 1.7.0_79   hadoop 2.7.3 点此下载 Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材

(转)Zookeeper 初体验之——伪分布式安装

Zookeeper 初体验之——伪分布式安装 简介 Apache Zookeeper 是由 Apache Hadoop 的 Zookeeper 子项目发展而来,现在已经成为了 Apache 的顶级项目.Zookeeper 为分布式系统提供了高效可靠且易于使用的协同服务,它可以为分布式应用提供相当多的服务,诸如统一命名服务,配置管理,状态同步和组服务等.Zookeeper 接口简单,开发人员不必过多地纠结在分布式系统编程难于处理的同步和一致性问题上,你可以使用 Zookeeper 提供的现成(of

hadoop伪分布式安装【翻译自hadoop1.1.2官方文档】

1.hadoop支持的平台: GNU/Linux平台是一个开发和生产的平台. hadoop已经被证明可以在GNU/Linux平台不是2000多个节点. win32是一个开发平台,分布式操作还没有在win32系统上很好的测试, 所以它不被作为生产环境. 2.安装hdoop需要的软件: linux和windows下安装hadoop需要的软件: 2.1从sun官网下载的1.6的jdk必须被安装. 2.2ssh 必须被安装 and ssh协议必须使用hadoop脚本用来管理远程的hadoop进程. 2.

【Hadoop】在Ubuntu系统下安装Hadoop单机/伪分布式安装

Ubuntu 14.10 前方有坑: 由于之前的分布式系统电脑带不动,所以想换一个伪分布式试一试.用的是Virtualbox + Ubuntu 14.10 .结果遇到了 apt-get 源无法更新的情况,以及安装包安装不全的情况.只好咬一咬牙,又重新把系统给更新一边. apt-get 源无法更新解决方案:传送门 首先先备份源列表: sudo cp /etc/apt/sources.list /etc/apt/sources.list_backup 用编辑器打开: sudo gedit /etc/

伪分布式安装core-site.xml和hdfs-site.xml配置文件

hadoop的伪分布式安装流程如下所示: 其中core-site.xml和hdfs-site.xml是两个很重要的配置文件. core-site.xml <configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/tmp</value> <description>Abase for other temporary