大数据（2）---HDFS集群搭建

一、准备工作

　　1.准备几台机器，我这里使用VMware准备了四台机器，一个name node，三个data node。

　　VMware安装虚拟机：https://www.cnblogs.com/nijunyang/p/12001312.html

　　2.Hadoop生态几乎都是用的java开发的，因此四台机器还需要安装JDK。

　　3.集群内主机域名映射，将四台机器的IP和主机名映射分别写到hosts文件中(切记主机名不要带非法字符，图片中的下划线”_”请忽略)

　　vim /etc/hosts

　　配好一个之后可以直接将这个复制到其他机器上面去，不用每台都去配置：

　　scp /etc/hosts nijunyang69:/etc/

　　scp /etc/hosts nijunyang70:/etc/

　　scp /etc/hosts nijunyang71:/etc/

二、hdfs集群安装

　　1.下载hadoop安装包到linux服务器上面，并进行解压，我这里使用的的2.8.5，

　　tar -zxvf hadoop-2.8.5.tar.gz

　　2.hadoop指定java环境变量：

　　hadoop-2.8.5/etc/hadoop/hadoop-env.sh 文件中指定java环境变量：

　　export JAVA_HOME=/soft/jdk1.8.0_191

　　3.配置核心参数：

　　　　1)指定hadoop的默认文件系统为：hdfs

　　　　2)指定hdfs的namenode节点为哪台机器

　　　　修改/etc/hadoop/core-site.xml 指定hadoop默认文件系统为hdfs,并且指定name node

　　　　<configuration>

　　　　　　<property>

　　　　　　　　<name>fs.defaultFS</name><!--指定默认文件系统hdfs-->

　　　　　　　　<value>hdfs://nijunyang68:9000/</value><!--指定name node为nijunyang_68-->

　　　　　　</property>

　　　　</configuration>

　　　　3) 指定namenode存储数据的本地目录

　　　　4) 指定datanode存放文件块的本地目录

　　　　修改/etc/hadoop/hdfs-site.xml

<configuration>

    <property>

    <name>dfs.namenode.name.dir</name>

    <value>/hadoop/hdpdata/name/</value>

    </property>

    <property>

    <name>dfs.datanode.data.dir</name>

    <value>/hadoop/hdpdata/data</value>

    </property>

</configuration>

　　　　每台机器都执行同样的操作，配置好上述配置，可以使用scp -r /soft/hadoop-2.8.5 nijunyang69:/soft 这个命令将第一台机器配置好的全部打包拷贝到另外机器上面去。

　　4.配置hadoop环境变量

　　5.初始化namenode：hadoop namenode -format

　　这时我们设置的namenode数据目录下面就会初始化出来对应的文件夹

　　6.启动namenode：在之前指定的namenode上面执行：hadoop-daemon.sh start namenode

　　Jps查看可以看到一个namenode的java进程，同时通过默认的50070端口可以进行web访问

　　可以看到现在HDFS的容量还是0，因为我还没有启动datanode

　　7.依次启动datanode：hadoop-daemon.sh start datanode

　　同样可以看到一个datanode的java进程启动了，再看web页面这个时候的hdfs容量大小差不多就是三个datanode之和了。

　　至此整个hdfs集群基本就搭建完毕了，中间的一个小插曲，主机名一定不要带”.” “/” “_”等特殊符号，否则启动无服务的时候可能报错无法启动：Does not contain a valid host

原文地址：https://www.cnblogs.com/nijunyang/p/12089270.html

时间： 2024-10-09 17:08:57

大数据（2）---HDFS集群搭建的相关文章

大数据（hdfs集群及其集群的高级管理）

#### 大数据课程第二天伪分布式hadoop的启动停止脚本[使用] sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start resourcemanager sbin/yarn-daemon.sh start nodemanager ? shell脚本 xxx.sh ls mkdir hadoop-start.sh sbin/hadoop-daemon

大数据：spark集群搭建

创建spark用户组,组ID1000 groupadd -g 1000 spark 在spark用户组下创建用户ID 2000的spark用户获取视频中文档资料及完整视频的伙伴请加QQ群:947967114useradd -u 2000 -g spark spark 设置密码 passwd spark 修改sudo权限 chmod u+w /etc/sudoers vi /etc/sudoers 找到 root ALL=(ALL) ALL 添加 spark ALL=(ALL) ALL 创建一个

大数据中Linux集群搭建与配置

因测试需要,一共安装4台linux系统,在windows上用vm搭建. 对应4个IP为192.168.1.60.61.62.63,这里记录其中一台的搭建过程,其余的可以直接复制虚拟机,并修改相关配置即可. 软件版本选择: 虚拟机:VMware Workstation 12 Pro 版本:12.5.9 build-7535481 Linux:CentOS-7-x86_64-DVD-1804 FTP工具:FileZilla-3.37.4 安装CentOS虚拟机首先安装虚拟机,成功后重启电脑新

【原创】大数据基础之集群搭建

Cluster Platform redhat/centos7, docker, mesos, cloudera manager(cdh) Checklist 1 check user & password & network reachability, make sure everything is fine to login all remote servers by ssh client2 check linux release, upgrade or reinstall if ne

大数据-spark HA集群搭建

一.安装scala 我们安装的是scala-2.11.8 5台机器全部安装下载需要的安装包并进行解压配置环境变量 [root@master1 ~]# vi /etc/profile export SCALA_HOME=/opt/software/scala-2.11.8 export PATH=$SCALA_HOME/bin:$PATH [root@master1 ~]# source /etc/profile 启动scala [root@master1 workspace]# vim /e

大数据-HDFS 集群搭建的配置文件

1.HDFS简单版集群搭建相关配置文件 1.core-site.xml文件 1 <property> 2 <name>fs.defaultFS</name> 3 <value>hdfs://hadoop2:9000</value> 4 </property> 5 6 <property> 7 <name>hadoop.tmp.dir</name> 8 <value>/usr/hadoop

大数据高可用集群环境安装与配置（07）——安装HBase高可用集群

1. 下载安装包登录官网获取HBase安装包下载地址 https://hbase.apache.org/downloads.html 2. 执行命令下载并安装 cd /usr/local/src/ wget http://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.1.8/hbase-2.1.8-bin.tar.gz tar -zxvf hbase-2.1.8-bin.tar.gz mv hbase-2.1.8 /usr/local/hbase/ 3

Laxcus大数据管理系统单机集群版

Laxcus大数据管理系统是我们Laxcus大数据实验室历时5年,全体系全功能设计研发的大数据产品,目前的最新版本是2.1版本.从三年前的1.0版本开始,Laxcus大数据系统投入到多个大数据和云计算项目中使用.2.0版本的Laxcus大数据管理系统,已经从紧耦合架构转为松耦合架构,整合了最新的大数据和关系数据库的技术,实现了一站式数据处理,大幅度提高了并行处理能力,同时兼具易操作.易维护.运行稳定的特点,节点数和数据存储计算规模已经达到百万台级和EB量级.目前已经覆盖的技术包括:行列混合存储.

云帆大数据学院Hadoop 集群 ——机器信息分布表

1.分布式环境搭建采用4 台安装Linux 环境的机器来构建一个小规模的分布式集群. 其中有一台机器是Master 节点,即名称节点,另外三台是Slaver 节点,即数据节点.这四台机器彼此间通过路由器相连,从而实验相互通信以及数据传输.它们都可以通过路由器访问Internet,实验网页文档的采集.2.集群机器详细信息2.1 Master 服务器名称详细信息机器名称Master.Hadoop机器IP 地址192.168.1.2最高用户名称(Name) root最用用户密码(PWD) hadoop