CentOS6.5x64搭建Hadoop环境

  首先总结一下之所以被搭建大数据环境支配的原因:浮躁。 总是坐不住,总是嫌视频太长,总是感觉命令太杂太多,所以就不愿去面对。

  在抖音上听到一句话:“为什么人们不愿吃学习的苦而能吃社会的苦? 因为学习的苦需要主动去吃,所以没人愿意,到了社会上,社会的苦不得不吃。”

  有些时候,有些坎坷,我们必须要亲身经历,就算你逃避,也终有一天会面对它。就像我,觉得教科书文字枯燥,不如看视频跟着敲直接。但是绕了一圈,终究我还是回归到了教科书。

  我发现白彦峰老师编的这本《大数据技术基础实验教程》真是一本神书!只要,你一步一步跟着做,别跑偏,保准没有Bug。

大致流程我分成了六件事情:

第一件事:配置VMWare Workstation的NAT模式的IP

需要资源:VMWare Workstations版本9及以上

这需要你掌握以下几个名词:

  1. 网络适配器

    1.1 桥接模式

    1.2 NAT模式

    1.3 仅主机模式

  2. 子网IP

  3. 子网掩码

  4. 网关

  5. DNS

第二件事:手动配置IP

需要资源:CentOS6.5x64位操作系统

你需要掌握以下几个名词:

  1. Linux操作系统

  2. 32位、64位操作系统及应用软件

  3. IPv4协议

    3.1 DHCP获取IP

    3.2 手动设置IP

  4. /etc/hosts

  5. /etc/sysconfig/network

第三件事:安装JDK

需要资源:jdk1.7或jdk1.8或jdk11x64位安装包

你需要掌握以下几个名词:

  1. Oracle公司

  2. JDK版本

  3. 环境变量

    3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别

    3.2 JAVA_HOME 和 PATH 的关系

第四件事:SSH免密登录

需要资源:无

你需要掌握以下几个名词:

  1. ssh协议

  2. 授权文件authorized_keys及其文件权限600

  3. 私钥id_rsa及公钥id_rsa.pub

第五件事:安装配置Hadoop

需要资源:Hadoop-2.*x64位二进制安装包

你需要掌握以下几个名词:

  1. Apache组织

  2. Hadoop软件文件组成

  3. 两个环境变量配置文件

    3.1 Hadoop中配置JAVA环境变量文件:hadoop-env.sh

    3.2 Yarn中配置JAVA环境变量文件  : yarn-env.sh

  4. 四个必要的配置文件

    4.1 核心组件配置文件: core-site.xml

    4.2 文件系统配置文件: hdfs-site.xml

    4.3 yarn配置文件:     yarn-site.xml

    4.4 MapReduce配置文件:mapred-site.xml

  5. 一个节点文件:slaves

  6. ssh跨主机递归复制文件命令 scp -r

第六件事:启动集群

资源:三个主机

你需要掌握以下几个名词:

  1. HDFS

  2. namenode 的格式化

  3. start-dfs.sh 命令

  4. start-yarn.sh 命令

  5. jps命令

    namenode

    seconderynamenode

    datanode

    sourcemanager

    nodemanager

    jps

  5. 端口50070、9000、18088

  6. MapReduce实例

接下来说说我和Bug斗争的心酸血泪史(深夜胡话,只有我自己能看懂,建议略过):

  第一件事:配置VMWare Workstation的NAT模式的IP

  一开始我没有配workstation的IP,觉得默认就可以了,操作黑盒子的结果就是导致无知。

后来,我知道了1. 网络适配器,是一个驱动(软件),我Windows的网就经常坏掉,然后经常去禁用网络适配器。

后来,我知道了1.1 桥接模式、1.2 NAT模式、1.3 仅主机模式这三个网络适配器分配IP的方式。

后来,我知道了2. 子网IP、3. 子网掩码、4. 网关、5. DNS这几个是怎样结合起来构建整个网络系统的。

  第二件事:手动配置IP

  由于一开始没有配workstation的IP,直接导致了我没有去操作系统里面进行手动配置IP地址,同样是操作黑盒子的结果就是导致无知。

后来,我知道了3. IPv4协议

后来,我知道了3.1 DHCP获取IP与3.2 手动设置IP之间的区别

后来,我知道了4. /etc/hosts与5. /etc/sysconfig/network两个文件的作用

顺带了解了一下1. Linux操作系统与2. 32位、64位操作系统及应用软件的爱恨情仇

  第三件事:安装JDK

  由于我学习JAVA的时候就了解过1. Oracle公司、2. JDK版本、3. 环境变量, 所以在这件事上没吃多大的亏

唯一就是Windows上只分用户、系统两个环境变量 然而Linux中分三个环境变量:3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别

  第四件事:SSH免密登录

  同样是因为我之前学习Git的时候了解过1. ssh协议、2. 授权文件authorized_keys及其文件权限600、3. 私钥id_rsa及公钥id_rsa.pub 所以在这件事上是最轻松的。

这里有个文件权限600,本可以说上一段的,但这里只需要背住就行,authorized_keys文件的权限只能是600,否则文件不管用。

  第五件事:安装配置Hadoop

  这件事先是从零开始听说Hadoop,

后来,我才知道Hadoop属于1. Apache

由于我跟着视频操作,老师带着了解过2. Hadoop软件文件组成及文件配置,还有ssh连接与文件传输,

所以这件事上也相对轻松,不过有个坑是由于我的不小心,把yarn-site.xml中配置的<value>master:18088 </value> 端口号后面都误加了一个空格,导致yarn的resourcemanager无法启动,

找了半天,最后还是找到日志文件,才看出一些端倪。 查看启动日志的方式是:

cd hadoop-2.8.5/logs/

tail -500 yarn-jmxx-resourcemanager-master.log

日志告诉我说,number format error ,就一个number提醒了我,是不是端口号写的有问题,一看果真是多了一个空格。

在此感激教会我看日志的人,其博客地址:https://blog.csdn.net/u010180815/article/details/79070870?utm_source=blogxgwz2

  第六件事:启动集群

  最后了,说两点:

  一开始由于没有安装书上的配置方法配置,导致hdfs生成的data、logs文件总是权限不足,这就会导致namenode无法启动 需要先把data、logs文件夹删除,然后再进行namenode格式化,才能启动。

  还有一件事就是,电脑配置不高的,跑MapReduce的时候,参数设置成5-10就可以了,否则一个计算pi,需要跑上20分钟。  

结尾:

  搭建环境这么麻烦,真的不想再让你们遭罪,可以联系我,找我要搭建好的镜像资源。

  能面谈的面谈,面谈不了的发我QQ邮箱找我要:

  [email protected]

出门记得点赞哟!

原文地址:https://www.cnblogs.com/littlecurl/p/BigData.html

时间: 2024-09-29 23:37:28

CentOS6.5x64搭建Hadoop环境的相关文章

基于CentOS与VmwareStation10搭建hadoop环境

基于CentOS与VmwareStation10搭建hadoop环境     目  录 1.         概述.... 1 1.1.     软件准备.... 1 1.2.     硬件准备.... 1 2.         安装与配置虚拟机.... 2 2.1.     创建虚拟机.... 2 2.1.1.     创建虚拟机节点1.. 2 2.1.2.     创建虚拟机节点2.. 4 2.1.3.     创建虚拟机节点3.. 4 2.2.     安装操作系统CentOS6.0..

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)【转】

[转自:]http://blog.csdn.net/hitwengqi/article/details/8008203 最近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文. 首先要了解一下Hadoop的运行模式: 单机模式(standalone)       单机模式是Hadoop的默认模式.当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置.在这种默认模式下所有3个XML文件均为空.当配置文件为空时,Hadoop会完全运行在本地.因为不

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

Hadoop在处理海量数据分析方面具有独天优势.今天花时间在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下. 首先,了解Hadoop的三种安装模式: 1. 单机模式. 单机模式是Hadoop的默认模.当配置文件为空时,Hadoop完全运行在本地.因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程.该模式主要用于开发调试MapReduce程序的应用逻辑. 2. 伪分布模式. Hadoop守护进程运行在本地机器上,模拟一个小规模的的集群.

centos6.4 搭建JDK环境

1.从oracle官网上下载最新版本的java,这里就不再贴出下载地址,请自行下载. 2.将下载的压缩包文件(*.tar.gz)复制到/usr/local/java目录,为什么是这个目录(java是自己新建的目录)呢,因为在linux中添加程序的时候会安装在这个目录下面.复制使用cp命令(命令格式:cp 参数1 参数2 ,其中参数1是源文件完全路径名,参数2是目标目录). 3.使用解压缩命令将文件解压(命令格式:tar -zxvf 参数1,其中参数1是压缩文件名) 4.配置环境变量,配置环境变量

linux搭建hadoop环境

linux搭建hadoop环境 1.安装JDK (1)下载安装JDK:确保计算机联网之后命令行输入下面命令安装JDK sudo apt-get install sun-java6-jdk (2)配置计算机Java环境:打开/etc/profile,在文件最后输入下面内容 export JAVA_HOME = (Java安装目录) export CLASSPATH = ".:$JAVA_HOME/lib:$CLASSPATH" export PATH = "$JAVA_HOME

Docker搭建Hadoop环境

文章目录 Docker搭建Hadoop环境 Docker的安装与使用 拉取镜像 克隆配置脚本 创建网桥 执行脚本 Docker命令补充 更换镜像源 安装vim 启动Hadoop 测试Word Count 查看Web管理页面 Docker搭建Hadoop环境 Hadoop集群环境配置起来相当繁琐,并且在学习Hadoop过程中没有一般不会去使用多台设备进行分布式集群配置.因此在一台机器上配置Hadoop分布式集群时通常采用虚拟机来模拟多台设备,但虚拟机较为占用系统资源,开多个虚拟机(模拟Hadoop

Centos6.10搭建Hadoop三节点分布式

(一)安装JDK 1. 下载JDK,解压到相应的路径 2.  修改 /etc/profile 文件(文本末尾添加),保存 sudo vi /etc/profile # 配置 JAVA_HOME export JAVA_HOME=/home/komean/workspace/JDK/jdk1.8.0_181 export CLASSPATH=.:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar # 设置PATH export PATH=${JAV

在Centos7.6上搭建Hadoop环境时安装jdk1.8,java:未找到命令

首先卸载Centos本身自带的openjdk,我参考的这位博主的安装教程 https://www.cnblogs.com/happyflyingpig/p/8068020.html 安装Hadoop环境,我参考的是这位博主的安装教程 https://blog.csdn.net/frank409167848/article/details/80968531 注意: 在步骤1.4时:如果是以root用户安装环境时,应当直接cd /opt(这是根目录下的opt),并在该目录下创建相应module.so

ubantu中搭建Hadoop环境20180908(全)

一. Ubuntu Java8 的安装 添加ppa sudo add-apt-repository ppa:webupd8team/java sudo apt-get update 安装oracle-java-installer sudo apt-get install oracle-java8-installer 设置系统默认jdk sudo update-java-alternatives -s java-8-oracle java安装测试 java -version   javac -ve