首先总结一下之所以被搭建大数据环境支配的原因:浮躁。 总是坐不住,总是嫌视频太长,总是感觉命令太杂太多,所以就不愿去面对。
在抖音上听到一句话:“为什么人们不愿吃学习的苦而能吃社会的苦? 因为学习的苦需要主动去吃,所以没人愿意,到了社会上,社会的苦不得不吃。”
有些时候,有些坎坷,我们必须要亲身经历,就算你逃避,也终有一天会面对它。就像我,觉得教科书文字枯燥,不如看视频跟着敲直接。但是绕了一圈,终究我还是回归到了教科书。
我发现白彦峰老师编的这本《大数据技术基础实验教程》真是一本神书!只要,你一步一步跟着做,别跑偏,保准没有Bug。
大致流程我分成了六件事情:
第一件事:配置VMWare Workstation的NAT模式的IP
需要资源:VMWare Workstations版本9及以上
这需要你掌握以下几个名词:
1. 网络适配器
1.1 桥接模式
1.2 NAT模式
1.3 仅主机模式
2. 子网IP
3. 子网掩码
4. 网关
5. DNS
第二件事:手动配置IP
需要资源:CentOS6.5x64位操作系统
你需要掌握以下几个名词:
1. Linux操作系统
2. 32位、64位操作系统及应用软件
3. IPv4协议
3.1 DHCP获取IP
3.2 手动设置IP
4. /etc/hosts
5. /etc/sysconfig/network
第三件事:安装JDK
需要资源:jdk1.7或jdk1.8或jdk11x64位安装包
你需要掌握以下几个名词:
1. Oracle公司
2. JDK版本
3. 环境变量
3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别
3.2 JAVA_HOME 和 PATH 的关系
第四件事:SSH免密登录
需要资源:无
你需要掌握以下几个名词:
1. ssh协议
2. 授权文件authorized_keys及其文件权限600
3. 私钥id_rsa及公钥id_rsa.pub
第五件事:安装配置Hadoop
需要资源:Hadoop-2.*x64位二进制安装包
你需要掌握以下几个名词:
1. Apache组织
2. Hadoop软件文件组成
3. 两个环境变量配置文件
3.1 Hadoop中配置JAVA环境变量文件:hadoop-env.sh
3.2 Yarn中配置JAVA环境变量文件 : yarn-env.sh
4. 四个必要的配置文件
4.1 核心组件配置文件: core-site.xml
4.2 文件系统配置文件: hdfs-site.xml
4.3 yarn配置文件: yarn-site.xml
4.4 MapReduce配置文件:mapred-site.xml
5. 一个节点文件:slaves
6. ssh跨主机递归复制文件命令 scp -r
第六件事:启动集群
资源:三个主机
你需要掌握以下几个名词:
1. HDFS
2. namenode 的格式化
3. start-dfs.sh 命令
4. start-yarn.sh 命令
5. jps命令
namenode
seconderynamenode
datanode
sourcemanager
nodemanager
jps
5. 端口50070、9000、18088
6. MapReduce实例
接下来说说我和Bug斗争的心酸血泪史(深夜胡话,只有我自己能看懂,建议略过):
第一件事:配置VMWare Workstation的NAT模式的IP
一开始我没有配workstation的IP,觉得默认就可以了,操作黑盒子的结果就是导致无知。
后来,我知道了1. 网络适配器,是一个驱动(软件),我Windows的网就经常坏掉,然后经常去禁用网络适配器。
后来,我知道了1.1 桥接模式、1.2 NAT模式、1.3 仅主机模式这三个网络适配器分配IP的方式。
后来,我知道了2. 子网IP、3. 子网掩码、4. 网关、5. DNS这几个是怎样结合起来构建整个网络系统的。
第二件事:手动配置IP
由于一开始没有配workstation的IP,直接导致了我没有去操作系统里面进行手动配置IP地址,同样是操作黑盒子的结果就是导致无知。
后来,我知道了3. IPv4协议
后来,我知道了3.1 DHCP获取IP与3.2 手动设置IP之间的区别
后来,我知道了4. /etc/hosts与5. /etc/sysconfig/network两个文件的作用
顺带了解了一下1. Linux操作系统与2. 32位、64位操作系统及应用软件的爱恨情仇
第三件事:安装JDK
由于我学习JAVA的时候就了解过1. Oracle公司、2. JDK版本、3. 环境变量, 所以在这件事上没吃多大的亏
唯一就是Windows上只分用户、系统两个环境变量 然而Linux中分三个环境变量:3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别
第四件事:SSH免密登录
同样是因为我之前学习Git的时候了解过1. ssh协议、2. 授权文件authorized_keys及其文件权限600、3. 私钥id_rsa及公钥id_rsa.pub 所以在这件事上是最轻松的。
这里有个文件权限600,本可以说上一段的,但这里只需要背住就行,authorized_keys文件的权限只能是600,否则文件不管用。
第五件事:安装配置Hadoop
这件事先是从零开始听说Hadoop,
后来,我才知道Hadoop属于1. Apache
由于我跟着视频操作,老师带着了解过2. Hadoop软件文件组成及文件配置,还有ssh连接与文件传输,
所以这件事上也相对轻松,不过有个坑是由于我的不小心,把yarn-site.xml中配置的<value>master:18088 </value> 端口号后面都误加了一个空格,导致yarn的resourcemanager无法启动,
找了半天,最后还是找到日志文件,才看出一些端倪。 查看启动日志的方式是:
cd hadoop-2.8.5/logs/
tail -500 yarn-jmxx-resourcemanager-master.log
日志告诉我说,number format error ,就一个number提醒了我,是不是端口号写的有问题,一看果真是多了一个空格。
在此感激教会我看日志的人,其博客地址:https://blog.csdn.net/u010180815/article/details/79070870?utm_source=blogxgwz2
第六件事:启动集群
最后了,说两点:
一开始由于没有安装书上的配置方法配置,导致hdfs生成的data、logs文件总是权限不足,这就会导致namenode无法启动 需要先把data、logs文件夹删除,然后再进行namenode格式化,才能启动。
还有一件事就是,电脑配置不高的,跑MapReduce的时候,参数设置成5-10就可以了,否则一个计算pi,需要跑上20分钟。
结尾:
搭建环境这么麻烦,真的不想再让你们遭罪,可以联系我,找我要搭建好的镜像资源。
能面谈的面谈,面谈不了的发我QQ邮箱找我要:
[email protected]
出门记得点赞哟!
原文地址:https://www.cnblogs.com/littlecurl/p/BigData.html