大数据生态圈 —— 单节点伪分布式环境搭建

本文参考

关于环境搭建,imooc上关于Hadoop、hbase、spark等课程上有很多环境搭建的例子,但是有些并没有说明为什么选择这个的版本,我们知道这些开源的技术发展很快,所以有必要搞清楚如何对它们进行版本选择

环境

centos7.7(主机名hadoop0001,用户名hadoop) + spark 2.2.0 + scala 2.11.8 + hbase1.3.6 + Hadoop 2.6.5 + zookeeper 3.4.14 + kafka 0.8.2.1 + flume 1.6.0,本文均为apache的安装包(更稳定的版本,可以到cloudera下载)

semantic versioning(语义版本号)

语义版本号由五个部分组成主版本号次版本号补丁号预发布版本号,例如现在spark的最新版本号为3.0.0 – preview2,其中3为主版本号,两个0依次为次版本号和补丁号,preview2为预发布版本号(另外的还有Alpha、Beta等),主版本号的递增往往不兼容旧版本;次版本号的递增,往往会有新增的功能,可能会带来API的变化,例如标记某个API为Deprecated,也不保证一定兼容旧版本;补丁号只负责修复bug,在主版本号和次版本号相同的情况下,补丁号版本越大,系统越可靠

Hadoop 2.6.5 环境搭建

下载地址:

http://archive.apache.org/dist/Hadoop/core/

为什么选择Hadoop2.6.5版本?

目前spark最新稳定的版本为2.4.5,仍由Hadoop 2.6 或 2.7 版本编译,spark2.2.0也是如此,可以到spark archieve下载页面验证,这里就选择Hadoop 2.6 最新的补丁号 2.6.5版本

配置 core–default.xml

<configuration>
????<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop0001:9000</value>
</property>
????<property>
???? <name>hadoop.tmp.dir</name>
???? <value>/home/hadoop/app/tmp/hadoop</value>
????</property>
</configuration>

fs.defaultFS配置Hadoop的HDFS分布式文件系统的URI,这个URI也关系到后续Hbase的配置,在这里我的主机名为hadoop0001,端口号配置为9000

hadoop.tmp.dir配置Hadoop的缓存目录,默认存放在根目录的tmp文件夹下,路径和文件名为/tmp/hadoop-${user.name},因为在每次重启时/tmp目录内的内容会丢失,所以在这里我配置到了hadoop用户目录下自己创建的app/tmp/hadoop目录中

配置hdfs–site.xml

<configuration>
????<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

dfs.replication默认值为3,即文件默认有3份备份,在这里因为我们是单节点单台机器,所以更改为1

配置yarn-site.xml

<configuration>
????<property>
????????<name>yarn.nodemanager.aux-services</name>
????????<value>mapreduce_shuffle</value>
????</property>
????<property>
????????<name>yarn.resourcemanager.webapp.address</name>
????????<value>hadoop0001:8088</value>
</property>
</configuration>

yarn.nodemanager.aux-services配置nodemanager的服务名

yarn.resourcemanager.webapp.address配置resourcemanager的网页URI,若只指定主机名,端口将随机分配

配置mapred-site.xml

<configuration>
????<property>
????????<name>mapreduce.framework.name</name>
????????<value>yarn</value>
????</property>
</configuration>

mapreduce.framework.name配置执行MapReduce作业的框架,一般使用yarn

The runtime framework for executing MapReduce jobs. Can be one of local, classic or yarn.

配置slaves

hadoop0001

配置本机的主机名即可

配置hadoop-env.sh

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_241

指定java8的路径

ZooKeeper 3.4.14 环境搭建

下载地址:

http://zookeeper.apache.org/releases.html

为什么选择ZooKeeper3.4.14版本?

ZooKeeper3.4的第一个版本最早发布于2011年,最新的补丁号版本为2019年发布的3.4.14,可见维护时间之长,个人认为有较好的稳定性

配置conf/zoo.cfg

# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just example sakes.
dataDir=/home/hadoop/app/zookeeper-3.4.14/zkData/zoo_1
# the port at which the clients will connect
clientPort=2181
server.1=hadoop0001:2889:3889
server.2=hadoop0001:2890:3890
server.3=hadoop0001:2891:3891

这里只列出了需要更改的配置项,将原文件复制三份,zoo_1.cfg,zoo_2.cfg,zoo_3.cfg,分别为他们配置dataDir和clientPort,最后三行的URI在三个文件中都相同

?

?

原文地址:https://www.cnblogs.com/kuluo/p/12586627.html

时间: 2024-11-08 19:02:12

大数据生态圈 —— 单节点伪分布式环境搭建的相关文章

《OD大数据实战》hadoop伪分布式环境搭建

一.安装并配置Linux 8. 使用当前root用户创建文件夹,并给/opt/下的所有文件夹及文件赋予775权限,修改用户组为当前用户 mkdir -p /opt/modules mkdir -p /opt/software mkdir -p /opt/datas mkdir -p /opt/tools chmod 775 /opt/* chown beifeng:beifeng /opt/* 最终效果如下: [[email protected]02 opt]$ pwd /opt [[email

Hadoop 2.x伪分布式环境搭建测试

Hadoop 2.x伪分布式环境搭建测试 标签(空格分隔): hadoop hadoop,spark,kafka交流群:459898801 1,搭建hadoop所需环境 卸载open JDK rpm -qa |grep java rpm -e –nodeps [java] 1.1,在/opt/目录下创建四个目录: modules/ software/ datas/ tools/ 解压hadoop-2.5.0及jdk-7u67-linux-x64.tar.gz至modules目录下. $tar -

【Hadoop】伪分布式环境搭建、验证

Hadoop伪分布式环境搭建: 自动部署脚本: #!/bin/bash set -eux export APP_PATH=/opt/applications export APP_NAME=Ares # 安装apt依赖包 apt-get update -y && apt-get install supervisor -y && apt-get install python-dev python-pip libmysqlclient-dev -y # 安装pip.python

一、Hadoop伪分布式环境搭建

Hadoop 2.x伪分布式环境搭建步骤: 1.修改hadoop-env.sh.yarn-env.sh.mapred-env.sh 方法:使用notepad++(beifeng用户)代开这三个文件 添加代码:export JAVA_HOME=/opt/modules/jdk1.7.0_67 2.修改core-site.xml.hdfs-site.xml.yarn-site.xml.mapred-site.xml配置文件 1)修改core-site.xml <configuration> <

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用介绍.本文主要讲解如何搭建Hadoop+Hive的环境. 一.环境准备 1,服务器选择 本地虚拟机 操作系统:linux CentOS 7 Cpu:2核 内存:2G 硬盘:40G 说明:因为使用阿里云服务器每次都要重新配置,而且还要考虑网络传输问题,于是自己在本地便搭建了一个虚拟机,方便文件的传输以

Hadoop2.x伪分布式环境搭建(一)

1.安装hadoop环境,以hadoop-2.5.0版本为例,搭建伪分布式环境,所需要工具包提供网盘下载:http://pan.baidu.com/s/1o8HR0Qu 2.上传所需要的工具包到linux相对就应的目录中 3.接上篇(Linux基础环境的各项配置(三)中最后一部分,需卸载系统自带的jdk,以免后续安装的jdk产生冲突),卸载jdk完成后,安装jdk-7u67-linux-x64.tar.gz版本,上述工具包可下载 (1).解压JDK tar -zxf jdk-7u67-linux

linux环境下的伪分布式环境搭建

本文的配置环境是VMware10+centos2.5. 在学习大数据过程中,首先是要搭建环境,通过实验,在这里简短粘贴书写关于自己搭建大数据伪分布式环境的经验. 如果感觉有问题,欢迎咨询评论. 一:伪分布式准备工作 1.规划目录 2.修改目录所有者和所属组 3.删除原有的jdk 4.上传需要的jdk包 5.增加jdk 的执行权限 6.解压jdk 7.修改profile的JAVA_HOME,PATH 8.切换至root用户,使文件生效 9.检验jdk是否成功 二:搭建为分布式 1.解压hadoop

hadoop0.20.2伪分布式环境搭建

虽然现在hadoop版本已经到了主流2点多的时代,但是对于学习大数据而言,我还是选择从以前老的版本0.20.2学起. 下面就是伪分布式的环境搭建过程. hadoop下载地址: http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz linux系统版本:centos7 1.配置主机名 [[email protected] ~]# vi /etc/sysconfig/network # Created

hadoop伪分布式环境搭建:linux操作系统安装图解

本篇文章是接上一篇<新手入门篇:虚拟机搭建hadoop环境的详细步骤>,上一篇有人问怎么没写hadoop安装.在文章开头就已经说明了,hadoop安装会在后面写到,因为整个系列的文章涉及到每一步的截图,导致文章整体很长.会分别先对虚拟机的安装.Linux系统安装进行介绍,然后才会写到hadoop安装,关于hadoop版本我使用的是大快搜索三节点发行版DKhadoop.(三节点的DKHadoop发行版可以自己去大快网站页面下载,目前是开放所有权限的,也就是免费版本和付费版本的权限一样,不知道以后