用阿里云三个ECS服务器搭建一个小模拟Hadoop集群（三个不同账号的阿里云，相同区域或不同区域）步骤整理

检查hosts和网卡配置

把三台小服务器先做内网互通

内网互通参照阿里云安全通道配置

1、准备至少三个虚拟机

2、相互通信，生成密钥并发送

生成密钥（ssh-keygen -t rsa）
发送密钥ssh-copy-id [email protected] （需要先修改、etc\hosts 文件）
登录测试 ssh [email protected]

3、安装JDK和Hadoop

jdk安装
- 上传jdk到vm1并解压（tar -zvxf jdk-7u67-linux-x64.tar.gz）
- 配置环境变量javahome，path，classpath（export JAVA_HOME=/home/vm1/jdk1.7.0_67 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar）
- 刷新环境变量并测试（source .base_profile）
hadoop安装
- 上传解压
- 配置环境变量hadoophome,path（export HADOOP_HOME=/home/vm1/hadoop-2.7.1 export PATH=$PATH:$HADOOP_HOME/bin）
- 刷新环境变量并测试（source .base_profile）
- 配置文件（配置文件目录：$HADOOP_HOME/etc/hadoop/）
  - core--site.xml
  - hdfs-site.xml
  - mapred-site.xml
  - yarn-site.xml
  - slaves(集群节点)
  - hadoop-env.sh(export JAVA_HOME=/home/hadoopadmin/jdk1.7.0_67)

4、格式化namenode

　　cd /home/vm1/hadoop-2.7.1/bin

　　chmod 744 *

　　hdfs namenode -format

5、启动Hadoop

　　cd /home/vm1/hadoop-2.7.1/sbin

　　chmod 744 *

　　./start-all.sh

core-site.xml 1 <configuration>
 2  <!-- Hadoop文件系统依赖的基础配置 -->
 3     <property>
 4         <name>hadoop.tmp.dir</name>
 5         <value>/home/hadoopadmin/hadoop/data</value>
 6     </property>
 7      <!-- NameNode结点的URI(包括协议、主机名称、端口号) -->
 8     <property>
 9         <name>fs.defaultFS</name>
10         <value>hdfs://*:8020</value>
11     </property>
12 </configuration>

hadoop-env.sh
export JAVA_HOME=java路径

hdfs-site.xml<!-- Put site-specific property overrides in this file. -->
<configuration>
  <!-- secondarynamenode的http服务器地址和端口 -->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>172.17.204.171:50090</value>
    </property>
    <!-- 默认块复制 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
     <!-- 关闭权限校验 -->
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
     <!-- namenode的http服务器地址和端口 -->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>172.17.204.171:50070</value>
    </property>
     <!-- datanode结点被指定要存储数据的本地文件系统路径 -->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/hadoopadmin/hadoop/data/dfs/dn</value>
    </property>
</configuration>

mapred-site.xml<!-- Put site-specific property overrides in this file. -->
<configuration>
  <!-- MapReduce JobHistory进程通信主机、端口 -->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>172.17.204.171:10020</value>
    </property>
     <!-- MapReduce JobHistory的web界面主机、端口 -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>172.17.204.171:19888</value>
    </property>
     <!-- 以yarn方式运行MapReduce -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

slaves　　　　vm01
　　　　vm02
　　　　vm03

时间： 2024-10-13 05:15:40

用阿里云三个ECS服务器搭建一个小模拟Hadoop集群（三个不同账号的阿里云，相同区域或不同区域）步骤整理的相关文章

搭建Hadoop集群 (三)

通过搭建Hadoop集群 (二), 我们已经可以顺利运行自带的wordcount程序. 下面学习如何创建自己的Java应用, 放到Hadoop集群上运行, 并且可以通过debug来调试. 有多少种Debug方式 Hadoop在Eclipse上的Debug方式一般来说, Debug最多的应用场景是调试MR中的代码逻辑, 还有部分是调试main方法中的某些代码逻辑. 无论是Standalone, Pesudo-Distributed, 还是Fully-Distributed Mode, 都可以d

Hadoop系列之（三）：使用Cloudera部署，管理Hadoop集群

1. Cloudera介绍 Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装. 根据使用的需要,Hadoop集群要安装很多的组件,一个一个安装配置起来比较麻烦,还要考虑HA,监控等. 使用Cloudera可以很简单的部署集群,安装需要的组件,并且可以监控和管理集群. CDH是Cloudera公司的发行版,包含Hadoop,Spark,Hive,Hbase和一些工具等. Cloudera有两个版本: Cloudera Expres

Hadoop集群三种作业调度算法介绍

Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)Hadoop中默认的调度器FIFO,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业.FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列中排队,新来的作业插入到队尾.一个作业运行完后,总是从队首取下一个作业运行.这种调度策略的优点是简单.易于实现,同时也减轻了jobtracker的负担.但是它的缺点也是显然的,它对所有的作业都一视同仁,没有考虑

阿里云Windows server 2008服务器搭建VPN 图文教程，购买境外服务器自建vpn,Win8/win10 连接VPN被阻止,出现812错误解决方法

阿里云Windows server 2008服务器搭建VPN 图文教程(超详细) 第一步:购买阿里云服务器,本文使用的是Windows Server 2008 R2 企业版64位中文版 IP地址:47.88.151.129,所属节点:亚太(新加坡) 服务器配置:2核,4GB,带宽10Mbps 第二步: 打开服务器管理器,点击添加角色,如下图: 本帖隐藏的内容然后弹出如下图所示,点击下一步: 点击后,如下图,勾选网络策略和网络服务,然后点击下一步: 接着继续点击下一步,直到弹出如下图所示的页面,勾

基于Docker快速搭建多节点Hadoop集群--已验证

Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中.这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤.作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节点数的Hadoop集群. 一. 项目简介 GitHub: kiwanlau/hadoop-cluster-docker 直接用机器搭建Hadoop集群是一个相当痛苦的过程,尤其对初学者来说.他们还没开

Hadoop集群(二) HDFS搭建

HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的.所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始. 安装Hadoop集群,首先需要有Zookeeper才可以完成安装.如果没有Zookeeper,请先部署一套Zookeeper.另外,JDK以及物理主机的一些设置等.请参考: Hadoop集群(一) Zookeeper搭建 Hadoop集群(三) Hbase搭建 Hadoop集群(四) Hadoop升级下面开始HDFS的安装 HDFS主机分配 1

阿里云ECS服务器部署HADOOP集群（三）：ZooKeeper 完全分布式集群搭建

本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建的基础上搭建,多添加了一个 datanode 节点 . 1 节点环境介绍: 1.1 环境介绍: 服务器:三台阿里云ECS服务器:master, slave1, slave2 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar.gz Java: jdk-8u77-linux-x64.tar.gz ZooKeeper: zookeeper-3.4.14.tar.gz 1.2 各节点角色

阿里云ECS服务器部署HADOOP集群（一）：Hadoop完全分布式集群环境搭建

准备: 两台配置CentOS 7.3的阿里云ECS服务器: hadoop-2.7.3.tar.gz安装包: jdk-8u77-linux-x64.tar.gz安装包: hostname及IP的配置: 更改主机名: 由于系统为CentOS 7,可以直接使用‘hostnamectl set-hostname 主机名’来修改,修改完毕后重新shell登录或者重启服务器即可. 1 hostnamectl set-hostname master 2 exit 3 ssh [email protected]

阿里云ECS服务器部署HADOOP集群（七）：Sqoop 安装

本篇将在阿里云ECS服务器部署HADOOP集群(一):Hadoop完全分布式集群环境搭建阿里云ECS服务器部署HADOOP集群(二):HBase完全分布式集群搭建(使用外置ZooKeeper) 阿里云ECS服务器部署HADOOP集群(三):ZooKeeper 完全分布式集群搭建阿里云ECS服务器部署HADOOP集群(四):Hive本地模式的安装的基础上搭建. 1 环境介绍一台阿里云ECS服务器:master 操作系统:CentOS 7.3 Hadoop:hadoop-2.7.3.tar