大数据:从入门到XX(四)

Hadoop Local (Standalone) Mode(单机版)的安装纯粹只是为练手,练完了单机版,下面该练练Pseudo-Distributed Mode(伪分布式版)的安装了。伪分布式是在一台物理机上模拟实现了hadoop的全部功能。包括ssh访问、hdfs格式化、mapReduce执行、yarn资源管理等,伪分布式安装是单机版安装的继续,部分内容依赖于单机版的安装情况。

1、首先确认在redhat6.4上有没有安装SSH。

[[email protected] ~]# rpm -qa|grep ssh
openssh-askpass-5.3p1-81.el6.x86_64
trilead-ssh2-213-6.2.el6.noarch
openssh-clients-5.3p1-81.el6.x86_64
ksshaskpass-0.5.1-4.1.el6.x86_64
openssh-server-5.3p1-81.el6.x86_64
libssh2-1.2.2-7.el6_2.3.x86_64
openssh-5.3p1-81.el6.x86_64

2、确认有没有安装 rsync

[[email protected] ~]# rpm -qa|grep rsync
rsync-3.0.6-9.el6.x86_64

3、执行命令,测试ssh是否能够通过无密码访问

[[email protected] ~]$ ssh localhost
The authenticity of host ‘localhost (::1)‘ can‘t be established.
RSA key fingerprint is 05:9e:ac:46:24:aa:c1:45:be:f6:55:83:10:6d:45:6d.

Are you sure you want to continue connecting (yes/no)?

说明:如果每次都需要输入密码,则说明没有配置公钥、私钥。

4、配置ssh,生成公钥、私钥


[[email protected] ~]$ ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa

Generating public/private dsa key pair.
Your identification has been saved in /home/hadoop/.ssh/id_dsa.
Your public key has been saved in /home/hadoop/.ssh/id_dsa.pub.
The key fingerprint is:
d4:fc:32:6f:5c:d6:5a:47:89:8a:9d:79:d1:b5:51:14 [email protected]
The key‘s randomart image is:
+--[ DSA 1024]----+
|               E*|
|         o    o =|
|        . o  o +.|
|       .  o.+ .o |
|        S.o=..o +|
|           =.o o.|
|            + .  |
|           .     |
|                 |
+-----------------+

执行下面的命令合并公钥。

[[email protected] ~]$ cat ~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys

执行下面的命令修改公钥文件模式。

[[email protected] .ssh]$ chmod 644 authorized_keys

这里需要说明一下,官方文档是基于ubuntu做的说明,要求执行chmod 0660 ~/.ssh/authorized_keys,但是在redhat6.4上肯定只能执行chmod 644 authorized_keys,否则会出错。

5、在配置文件中设置JAVA_HOME


[[email protected] ~]$ vi hadoop-2.7.2/etc/hadoop/hadoop-env.sh

# set to the root of your Java installation
export JAVA_HOME=/usr/java/jdk1.8.0_92

6、配置core-site.xml

vi hadoop-2.7.2/etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

7、配置hdfs-site.xml

vi hadoop-2.7.2/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

8、格式化namenode

[[email protected] hadoop-2.7.2]$ bin/hdfs namenode -format
16/03/12 19:21:50 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = localhost/127.0.0.1
STARTUP_MSG:   args = [-format]

STARTUP_MSG:   version = 2.7.2

。。。
。。。
16/03/12 19:21:55 INFO common.Storage: Storage directory /tmp/hadoop-hadoop/dfs/name has been successfully formatted.
16/03/12 19:21:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
16/03/12 19:21:56 INFO util.ExitUtil: Exiting with status 0
16/03/12 19:21:56 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/127.0.0.1
************************************************************/

9、启动hdfs

[[email protected] sbin]$ start-dfs.sh
16/03/12 20:04:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting namenodes on [localhost]
localhost: starting namenode, logging to /home/hadoop/hadoop-2.7.2/logs/hadoop-hadoop-namenode-localhost.localdomain.out
localhost: starting datanode, logging to /home/hadoop/hadoop-2.7.2/logs/hadoop-hadoop-datanode-localhost.localdomain.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /home/hadoop/hadoop-2.7.2/logs/hadoop-hadoop-secondarynamenode-localhost.localdomain.out
16/03/12 20:04:57 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

10、确认是否能成功访问hdfs的web页面

http://localhost:50070/

11、将本地文件导入hdfs中,测试mapReduce演示程序

[[email protected] sbin]$ hdfs dfs -mkdir /user
16/03/12 20:46:20 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

[[email protected] hadoop-2.7.2]$ hdfs dfs -put ./etc/hadoop/ /user

[[email protected] hadoop-2.7.2]$ hadoop jar ~/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep /user/hadoop output ‘de[a-z.]+‘
说明:下面这条语句是在hdfs上,直接查看输出
[[email protected] sbin]$ hdfs dfs -cat /user/hadoop/output/*
说明:下面这条语句是将输出内容从hdfs中拷贝到本地文件夹下

[[email protected] output]$ hdfs dfs -get /user/hadoop/output output

说明:查看本地文件夹下的内容

[[email protected] ~]$ cat output/*
160     description
128     der
63      der.
31      default
。。。
。。。

说明一下,上面的语句创建“/user”目录如果失败,可能是因为目录启用了保护模式,需要先执行以下命令:[[email protected] sbin]$ hadoop dfsadmin -safemode leave

12、停止hdfs

[[email protected] sbin]$ stop-dfs.sh
16/03/12 20:09:23 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Stopping namenodes on [localhost]
localhost: stopping namenode
localhost: stopping datanode
Stopping secondary namenodes [0.0.0.0]
0.0.0.0: stopping secondarynamenode
16/03/12 20:09:46 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

13、在单节点上启用YARN,配置mapred-site.xml


在hadoop2.7.2发布版中,没有找到mapred-site.xml文件,所以直接从模板复制过来一份。

[[email protected] sbin]$ cp mapred-site.xml.template mapred-site.xml

vi etc/hadoop/mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

14、配置yarn-site.xml

vi  etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

15、启动yarn

[[email protected] sbin]$ start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /home/hadoop/hadoop-2.7.2/logs/yarn-hadoop-resourcemanager-localhost.localdomain.out
localhost: starting nodemanager, logging to /home/hadoop/hadoop-2.7.2/logs/yarn-hadoop-nodemanager-localhost.localdomain.out

16、访问yarn的web页面

http://localhost:8088/

17、停止yarn

[[email protected] sbin]$ stop-yarn.sh
stopping yarn daemons
stopping resourcemanager
localhost: stopping nodemanager
no proxyserver to stop

以上是伪分布式hadoop的安装,整个过程基本遵照hadoop官方文档执行,在执行过程中,如果碰到其它问题,大多都是由于操作系统引起的,比如系统软件的安装、网络配置等情况。

时间: 2024-10-21 10:54:36

大数据:从入门到XX(四)的相关文章

[大数据从入门到放弃系列教程]第一个spark分析程序

文章施工中,由于部分网站会在我还没有写完就抓取到这篇文章,导致你看到的内容不完整,请点击这里: 或者复制访问 http://www.cnblogs.com/blog5277/p/8580007.html 来查看更完整的内容 [大数据从入门到放弃系列教程]第一个spark分析程序 原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 *********************分割线******************

大数据开发入门你必须知道的事情

昨天和三个学计算机专业的学生聊天时聊到了大数据开发方面的话题,他们三个人中,有两个已经进入企业开始工作,另外一个还是大二学生,但已经开设了自己的工作室.他们都是从事程序开发方面工作的.大数据开发自然都有关注到,只是目前的大数据技能水平只能说是"小菜鸟"吧,连入门还谈不上.当然了,大数据开发方面我也只能算是个"小学生",也是跟在师傅后面学.自然hadoop.区块链火了以后,发现很多从事程序开发的"码农"朋友们也陆续投入到大数据开发的怀抱.对于有多年

王家林亲传《DT大数据梦工厂》第四讲For与Function进阶实战、Lazy的使用

你想了解大数据,你想成为年薪百万吗?那你还等着什么,快点来吧!跟着王家林老师学习spark大数据 第四讲For与Function进阶实战.Lazy的使用 For循环 object For_Function_Advanced{ def  main ( args: Array[String]): Unit ={ for(i  <-  1 to 2;j <-  1 to 2)print((100*i + j) + “ ”) printIn for(i  <-  1 to 2;j <- 

自学大数据如何入手?大数据学习入门看什么书?

2018年,火爆的科技层出不穷,大数据.云计算.人工智能.区块链等等都被侃侃而谈.尤其是大数据工程师更是深受程序员的青睐,如此火爆的职业,吸引了大批有志青年的加入.但在加入之前,你仍需要一份详细的就业前景分析报告. 作为中国官方重点扶持的战略性新兴产业,大数据产业已逐步从概念走向落地"大数据"和"虚拟化"两大热门领域得到了广泛关注和重视,90%企业都在使用大数据. 财政大数据包括:公安大数据.质检大数据.食品安全大数据.卫生大数据.共商大数据.民政大数据: 企业大数

大数据hadoop入门之hadoop家族详解

大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得"熟悉"!越来越发现身边从事hadoop开发或者是正在学习hadoop的人变多了.作为一个hadoop入门级的新手,你会觉得哪些地方很难呢?运行环境的搭建恐怕就已经足够让新手头疼.如果每一个发行版hadoop都可以做到像大快DKHadoop那样把各种环境搭建集成到一起,一次安装搞定所有,那对于新手来说将是件多么美妙的事情!闲话扯得稍微多了点,回归整体.这篇准备给大家hadoop新入门的朋友

大数据的五大核心技术,给大数据同行入门研究参考的小知识

21世纪,世界已经进入数据大爆炸的时代,大数据时代已经来临.从商业公司内部的各种管理和运营数据,到个人移动终端与消费电子产品的社会化数据,再到互联网产生的海量信息数据等,每天世界上产生的信息量正在飞速增长.2009年数据信息量达到8 000亿GB,而到2011年达到1.8 ZB.图灵奖获得者Jim Gray提出的“新摩尔定律”:“每18个月全球新增信息量是计算机有史以来全部信息量的总和”,已经得到验证. 大数据的“大”不仅仅体现在数据的海量性,还在于其数据类型的复杂性.随着报表.账单.影像.办公

大数据时代推荐阅读的四本数据可视化丛书

1.数据可视化(全彩) 面对庞杂的大数据,可视化提供了良好的解读角度与方法,是大数据分析与应用的利器. 本书首次全面.细致地梳理了可视化的历史,理论,工具与应用案例,旁征博引,图文并茂,内容翔实丰富,专业严谨,是了解可视化知识的不二之选,也特别值得相关从业人员作为案头参考书备存. 本书入选十二五国家重点图书出版规划项目“大数据丛书”,并获得该领域著名学术带头人之一马匡六教授,石教英教授的专序推荐. 2.图灵程序设计丛书·数据可视化实战:使用D3设计交互式图表 (最有潜力的Web数据可视化库D3的

大数据架构和模式(四)——了解用于大数据解决方案的原子模式和复合模式

摘要:本文中介绍的模式有助于定义大数据解决方案的参数.本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案.原子模式描述了使用.处理.访问和存储大数据的典型方法.复合模式由原子模式组成,并根据大数据解决方案的范围进行分类.由于每个复合模式都有若干个维度,所以每个模式都有许多变化.复合模式使得业务和技术用户可以应用一个结构化方法为大数据问题建立范围,并定义高级的解决方案. 简介 本系列的 第 3 部分 介绍了大数据解决方案的逻辑层.这些层定义了各种组件,并对它们进行分类,这些组件必须处理某个

大数据架构和模式(四)了解用于大数据解决方案的原子模式和复合模式

本文收藏于:http://kb.cnblogs.com/page/510982/ 作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:21   推荐: 0   原文链接   [收藏] 摘要:本文中介绍的模式有助于定义大数据解决方案的参数.本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案.原子模式描述了使用.处理.访问和存储大数据的典型方法.复合模式由原子模式组成,并根据大数据解决方案的范围进行分类.由于每个复合模式都有若干个维度,

大数据-04-Hbase入门

本指南介绍了HBase,并详细指引读者安装HBase. 前面第二章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop.相关安装可以查看"大数据-01-安装Hadoop". 一.安装并配置HBase 1. HBase安装 1.1 解压安装包hbase-1.1.2-bin.tar.gz至路径 /usr/local,命令如下: sudo cp hbase-1.1.2-bin.tar.gz /usr/local cd /usr/local sudo tar -zxf hbas