大数据概述 Hadoop配置

Top

NSD ARCHITECTURE DAY05

1 案例1：安装Hadoop

1.1 问题

本案例要求安装单机模式Hadoop：

单机模式安装Hadoop
安装JAVA环境
设置环境变量，启动运行

1.2 步骤

实现此案例需要按照如下步骤进行。

步骤一：环境准备

1）配置主机名为nn01，ip为192.168.1.21，配置yum源（系统源）

备注：由于在之前的案例中这些都已经做过，这里不再重复，不会的学员可以参考之前的案例

2）安装java环境

[[email protected] ~]# yum -y install java-1.8.0-openjdk-devel
[[email protected] ~]# java -version
openjdk version "1.8.0_131"
OpenJDK Runtime Environment (build 1.8.0_131-b12)
OpenJDK 64-Bit Server VM (build 25.131-b12, mixed mode)
[[email protected] ~]# jps
1235 Jps

3）安装hadoop

[[email protected] ~]# tar -xf hadoop-2.7.6.tar.gz
[[email protected] ~]# mv hadoop-2.7.6 /usr/local/hadoop
[[email protected] ~]# cd /usr/local/hadoop/
[[email protected] hadoop]# ls
bin include libexec NOTICE.txt sbin
etc lib LICENSE.txt README.txt share
[[email protected] hadoop]# ./bin/hadoop //报错，JAVA_HOME没有找到
Error: JAVA_HOME is not set and could not be found.
[[email protected] hadoop]#

4）解决报错问题

[[email protected] hadoop]# rpm -ql java-1.8.0-openjdk
[[email protected] hadoop]# cd ./etc/hadoop/
[[email protected] hadoop]# vim hadoop-env.sh
25 export \
JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
33 export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
[[email protected] ~]# cd /usr/local/hadoop/
[[email protected] hadoop]# ./bin/hadoop
Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
CLASSNAME run the class named CLASSNAME
or
where COMMAND is one of:
fs run a generic filesystem user client
version print the version
jar <jar> run a jar file
note: please use "yarn jar" to launch
YARN applications, not this command.
checknative [-a|-h] check native hadoop and compression libraries availability
distcp <srcurl> <desturl> copy file or directories recursively
archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
classpath prints the class path needed to get the
credential interact with credential providers
Hadoop jar and the required libraries
daemonlog get/set the log level for each daemon
trace view and modify Hadoop tracing settings
Most commands print help when invoked w/o parameters.
[[email protected] hadoop]# mkdir /usr/local/hadoop/aa
[[email protected] hadoop]# ls
bin etc include lib libexec LICENSE.txt NOTICE.txt aa README.txt sbin share
[[email protected] hadoop]# cp *.txt /usr/local/hadoop/aa
[[email protected] hadoop]# ./bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount aa bb //wordcount为参数统计aa这个文件夹，存到bb这个文件里面（这个文件不能存在，要是存在会报错，是为了防止数据覆盖）
[[email protected] hadoop]# cat bb/part-r-00000 //查看

2 案例2：安装配置Hadoop

2.1 问题

本案例要求：

另备三台虚拟机，安装Hadoop
使所有节点能够ping通，配置SSH信任关系
节点验证

2.2 方案

准备四台虚拟机，由于之前已经准备过一台，所以只需再准备三台新的虚拟机即可，安装hadoop，使所有节点可以ping通，配置SSH信任关系，如图-1所示：

图-1

2.3 步骤

实现此案例需要按照如下步骤进行。

步骤一：环境准备

1）三台机器配置主机名为node1、node2、node3，配置ip地址（ip如图-1所示），yum源（系统源）

2）编辑/etc/hosts（四台主机同样操作，以nn01为例）

[[email protected] ~]# vim /etc/hosts
192.168.1.21 nn01
192.168.1.22 node1
192.168.1.23 node2
192.168.1.24 node3

3）安装java环境，在node1，node2，node3上面操作（以node1为例）

[[email protected] ~]# yum -y install java-1.8.0-openjdk-devel

4）布置SSH信任关系

[[email protected] ~]# vim /etc/ssh/ssh_config //第一次登陆不需要输入yes
Host *
GSSAPIAuthentication yes
StrictHostKeyChecking no
[[email protected] .ssh]# ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:Ucl8OCezw92aArY5+zPtOrJ9ol1ojRE3EAZ1mgndYQM [email protected]
The key‘s randomart image is:
+---[RSA 2048]----+
| o*E*=. |
| +XB+. |
| ..=Oo. |
| o.+o... |
| .S+.. o |
| + .=o |
| o+oo |
| o+=.o |
| o==O. |
+----[SHA256]-----+
[[email protected] .ssh]# for i in 21 22 23 24 ; do ssh-copy-id 192.168.1.$i; done
//部署公钥给nn01，node1，node2，node3

5）测试信任关系

[[email protected] .ssh]# ssh node1
Last login: Fri Sep 7 16:52:00 2018 from 192.168.1.21
[[email protected] ~]# exit
logout
Connection to node1 closed.
[[email protected] .ssh]# ssh node2
Last login: Fri Sep 7 16:52:05 2018 from 192.168.1.21
[[email protected] ~]# exit
logout
Connection to node2 closed.
[[email protected] .ssh]# ssh node3

步骤二：配置hadoop

1）修改slaves文件

[[email protected] ~]# cd /usr/local/hadoop/etc/hadoop
[[email protected] hadoop]# vim slaves
node1
node2
node3

2）hadoop的核心配置文件core-site

[[email protected] hadoop]# vim core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://nn01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop</value>
</property>
</configuration>
[[email protected] hadoop]# mkdir /var/hadoop //hadoop的数据根目录
[[email protected] hadoop]# ssh node1 mkdir /var/hadoop
[[email protected] hadoop]# ssh node2 mkdir /var/hadoop
[[email protected] hadoop]# ssh node3 mkdir /var/hadoop

3）配置hdfs-site文件

[[email protected] hadoop]# vim hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.http-address</name>
<value>nn01:50070</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>nn01:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>

4）同步配置到node1，node2，node3

[[email protected] hadoop]# yum –y install rsync //同步的主机都要安装rsync
[[email protected] hadoop]# for i in 22 23 24 ; do rsync -aSH --delete /usr/local/hadoop/
\ 192.168.1.$i:/usr/local/hadoop/ -e ‘ssh‘ & done
[1] 23260
[2] 23261
[3] 23262

5）查看是否同步成功

[[email protected] hadoop]# ssh node1 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
bb
README.txt
sbin
share
aa
[[email protected] hadoop]# ssh node2 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
bb
README.txt
sbin
share
aa
[[email protected] hadoop]# ssh node3 ls /usr/local/hadoop/
bin
etc
include
lib
libexec
LICENSE.txt
NOTICE.txt
bb
README.txt
sbin
share
aa

步骤三：格式化

[[email protected] hadoop]# cd /usr/local/hadoop/
[[email protected] hadoop]# ./bin/hdfs namenode -format //格式化 namenode
[[email protected] hadoop]# ./sbin/start-dfs.sh //启动
[[email protected] hadoop]# jps //验证角色
23408 NameNode
23700 Jps
23591 SecondaryNameNode
[[email protected] hadoop]# ./bin/hdfs dfsadmin -report //查看集群是否组建成功
Live datanodes (3): //有三个角色成功

原文地址：https://www.cnblogs.com/tiki/p/10785614.html

时间： 2024-10-29 18:09:51

大数据概述 Hadoop配置的相关文章

剖析大数据之Hadoop简介

随着互联网飞速的发展,海量的数据由现有的软件工具无法高效.及时.准确的进行捕捉.存储.管理.分析.所以大数据和云计算的出现改变了现有的服务模式,降低了拥有成本,改变了人类的生活习惯. <大数据概述> 通过海量的数据分析,提供给用户良好的决策和支撑,并推荐符号用户生活习惯的产品,并在此过程中不断的完善自身的算法,从而改善用户体验. <云计算概述> 云计算是一种按使用量付费的模式,该模式提供了可用的.便捷的.按用户需求的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,

大数据平台Hadoop的分布式集群环境搭建

1 概述本文章介绍大数据平台Hadoop的分布式环境搭建.以下为Hadoop节点的部署图,将NameNode部署在master1,SecondaryNameNode部署在master2,slave1.slave2.slave3中分别部署一个DataNode节点 NN=NameNode(名称节点) SND=SecondaryNameNode(NameNode的辅助节点) DN=DataNode(数据节点)2 前期准备 (1)准备五台服务器如:master1.master2.slave1.sla

大数据云计算高级实战Hadoop，Flink，Spark，Kafka，Storm，Docker高级技术大数据和Hadoop技能

大数据和Hadoop技能可能意味着有你的梦想事业和被遗忘之间的差异.骰子引用:“技术专业人员应该志愿参与大数据项目,这使他们对目前的雇主更有价值,对其他雇主更有销路.” 1.与Hadoop的职业:根据福布斯2015年的一份报告,约有90%的全球性组织报告了中高级别的大数据分析投资,约三分之一的投资者称其投资“非常重要”.最重要的是,约三分之二的受访者表示,数据和分析计划对收入产生了重大的可衡量的影响. Hadoop技能是需求的 - 这是不可否认的事实!因此,IT专业人士迫切需要使用 Hadoop

大数据测试之hadoop命令大全

大数据测试之hadoop命令大全 1.列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2.显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3.用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir这条命令会显示作业的细节信息,失败和终止的任务细节.4.关于作业的更多细节,比如成功的任务,以及对每个任务的所做的尝试次数等可以用下面的命令查看

大数据之hadoop，国内首部:Zookeeper从入门到精通课程分享

对这个课程感兴趣的朋友可以加我QQ2059055336和我联系. ZooKeeper是Hadoop的开源子项目(Google Chubby的开源实现),它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护.命名服务.分布式同步.组服务等. Zookeeper的Fast Fail 和 Leader选举特性大大增强了分布式集群的稳定和健壮性,并且解决了Master/Slave模式的单点故障重大隐患,这是越来越多的分布式产品如HBase.Storm(流计算).S4(流计算)等强依赖Zoo

大数据：Hadoop入门

大数据:Hadoop入门一:什么是大数据什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如关系型数据库,数据仓库等.这里“大”是一个什么量级呢?如在阿里巴巴每天处理数据达到20PB(即20971520GB). 2.大数据的特点: (1.)体量巨大.按目前的发展趋势来看,大数据的体量已经到达PB级甚至EB级. (2.)大数据的数据类型多样,以非结构化数据为主,如网络杂志,音频,视屏,图片,

洞悉大数据：Hadoop和云分析七大误解

七大误解:大数据与hadoop 对于Hadoop技术而言,可以说是开源领域的传奇,然而如今业界还伴随着一些流言,这些流言可能会导致IT高管们带着“有色”的观点去制定策略. 从IDC分析师报告中2013年数据存储上的增长速度将达到53.4%,AT&T更是声称无线数据的流量在过去的5年内增长200倍,从互联网内容.电子邮件.应用通知.社交消息以及每天接收的消息都在显着的增长,这也是众多大企业都聚焦大数据的原因所在. 毫无疑问,Hadoop成为解决大数据需求的主要投资领域之一,而类似Facebook等

细细品味大数据--初识hadoop

初识hadoop 前言之前在学校的时候一直就想学习大数据方面的技术,包括hadoop和机器学习啊什么的,但是归根结底就是因为自己太懒了,导致没有坚持多长时间,加上一直为offer做准备,所以当时重心放在C++上面了(虽然C++也没怎么学),计划在大四下有空余时间再来慢慢学习.现在实习了,需要这方面的知识,这对于我来说,除去校招时候投递C++职位有少许影响之外,无疑是有很多的好处. 所以,接下来的很长日子,我学习C++之外的很多时间都必须要花在大数据上面了. 那么首先呢,先来认识一下这处理大数据

大数据和Hadoop什么关系？为什么大数据要学习Hadoop？

大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集.整理.传输.存储.安全.分析.呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网.云计算也都有密切的联系. Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台. 广义上讲,大数据是时代发展和技术进步的产物.Hadoop只是一种处理大数据的技术手段. Hadoop是目前被广泛使用的大数据平台,本身就是大数据平