Hadoop2.8.4安装&MapReduce基础

hdfs的副本的配置
修改hdfs-site.xml文件
<property>
<name>
dfs.namenode.secondary.http-address
</name>
<value>hd-02:50090</value>
</property>
需要同步到其它机器:
scp hdfs-site.xml hd-02:$PWD
hadoop启动方式
1)启动hdfs集群
$ start-dfs.sh
2)启动yarn集群
$ start-yarn.sh
3)启动hadoop集群
$ start-all.sh
大数据干什么的?
1)海量数据的存储(mysql/orcale)
分布式文件系统hdfs
dfs->Hdfs
mapreduce->mapreduce
bigtable->hbase
分而治之!
2)海量数据的计算
分布式计算框架mapreduce
配置checkpoint时间
<property>
<name>dfs.namenode.checkpoint.period</name>
<value>7200</value>
</property>
hadoop­2.8.4安装部署
1)准备工作
设置主机名:vi /etc/hostname
注意:需要重启 reboot
设置映射:vi /etc/hosts
设置免密登录:ssh-keygen
ssh-copy-id hd-01
...
2)安装jdk
上传安装包
CRT:alt+p
解压
tar -zxvf .tar.gz
配置环境变量
export JAVA_HOME=/root/hd/jdk1.8.0_141
export PATH=$PATH:$JAVA_HOME/bin
注意:需要source /etc/profile
分发jdk
scp jdk hd-02:/root/hd
scp /etc/profile hd-02:/etc/
source /etc/profile
3)安装hadoop
上传安装包
alt + p
解压
tar -zxvf .tar.gz
修改配置文件
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
配置环境变量
export HADOOP_HOME=/
export PATH=$PAYH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
修改slaves文件加入从节点
格式化namenode
hadoop namenode -format
启动:start-all.sh
hadoop­MapReduce
官方:Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。
Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理
大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和
存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故
障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。
阿里的Flink(9000万欧元) Blink
MapReduce分布式计算程序的编程框架。基于hadoop的数据分析的应用。
MR优点:
1)框架易于编程
2)可靠容错(集群)
3)可以处理海量数据(1T+ PB+) 1PB = 1024TB
4)拓展性,可以通过动态的增减节点来拓展计算能力
MapReduce的思想
数据:海量单词
hello reba
hello mimi
hello liya
mimi big
需求:对每个单词出现的次数统计出来
思想:分而治之!
解决方式:
1)每个单词记录一次(map阶段)
<hello,1> <reba,1> <hello,1> <mimi,1>
2)相同单词的key不变,value累加求和即可(reduce阶段)
<hello,1+1+1>
对数据进行计算

原文地址:https://www.cnblogs.com/jareny/p/10799605.html

时间: 2024-08-02 06:29:56

Hadoop2.8.4安装&MapReduce基础的相关文章

Hadoop2.6.0安装 — 集群

文 / vincentzh 原文连接:http://www.cnblogs.com/vincentzh/p/6034187.html 这里写点 Hadoop2.6.0集群的安装和简单配置,一方面是为自己学习的过程做以记录,另一方面希望也能帮助到和LZ一样的Hadoop初学者,去搭建自己的学习和练习操作环境,后期的 MapReduce 开发环境的配置和 MapReduce 程序开发会慢慢更新出来,LZ也是边学习边记录更新博客,路人如有问题欢迎提出来一起探讨解决,不足的地方希望路人多指教,共勉! 目

Apache Hadoop2.x 边安装边入门

完整PDF版本:<Apache Hadoop2.x边安装边入门> 目录 第一部分:Linux环境安装 第一步.配置Vmware NAT网络 一. Vmware网络模式介绍 二. NAT模式配置 第二步.安装Linux操作系统 三. Vmware上安装Linux系统 四.设置网络 五.修改Hostname 六.配置Host 七.关闭防火墙 八.关闭selinux 第三步.安装JDK 九.安装Java JDK 第二部分:Hadoop本地模式安装 第四步. Hadoop部署模式 第五步.本地模式部署

Hadoop-2.4.0安装和wordcount执行验证

Hadoop-2.4.0安装和wordcount执行验证 下面描写叙述了64位centos6.5机器下,安装32位hadoop-2.4.0,并通过执行 系统自带的WordCount样例来验证服务正确性的步骤. 建立文件夹 /home/QiumingLu/hadoop-2.4.0,以后这个是hadoop的安装文件夹. 安装hadoop-2.4.0,解压hadoop-2.4.0.tar.gz到文件夹 /home/QiumingLu/hadoop-2.4.0就可以 [[email protected]

Hadoop第3周练习--Hadoop2.X编译安装和实验

1    练习题目 2    编译Hadoop2.X 64bit 2.1  运行环境说明 2.1.1   硬软件环境 2.1.2   集群网络环境 2.2  环境搭建 2.2.1   JDK安装和Java环境变量配置 2.2.2   安装并设置maven 2.2.3   以root用户使用yum安装svn 2.2.4   以root用户使用yum安装autoconf automake libtool cmake 2.2.5   以root用户使用yum安装ncurses-devel 2.2.6 

Hadoop2伪分布模式安装

参照Apache的官方文档,Hadoop2还是蛮好搭建的,但是搭建好后,MapReduce的JobHistory页面却没法进去,这是因为JobHistory没有配置正确或者服务没有启动起来.本文将梳理伪分布模式的搭建过程,并给出配置文档,让你不再为搭建这些过程烦恼. 准备 安装程序获取:从官网上下载,从Apache Download Mirrors选择一个镜像位置,然后选择一个Hadoop版本,下载hadoop-2.*.*.tar.gz 安装jdk: sudo apt-get autoremov

Hadoop2的FN安装(federated namespace)

尝试了简单的安装hadoop2后,我们再来尝试一下hdfs的一项新功能:FN.这项技术可以解决namenode容量不足的问题.它采用多个namenode来共享datanode的方式,每个namenode属于不同的namespace. 下面是我们的安装信息 Hadoop 版本:2.2.0 OS 版本: Centos6.4 Jdk 版本: jdk1.6.0_32 机器配置 机器名 Ip地址 功能 Hadoop1 192.168.124.135 NameNode, DataNode, Resource

Hadoop2的HA安装(high availability):nfs+zookeeper

前面介绍过hadoop的简单安装和FA安装,在这里将介绍几种hadoop2中HA(高可用性)安装,HA技术使hadoop不再存在单点namenode的故障. 先来第一种:nfs+zookeeper Hadoop 版本:2.2.0 OS 版本: Centos6.4 Jdk 版本: jdk1.6.0_32 环境配置 机器名 Ip地址 功能 Hadoop1 192.168.124.135 NameNode, DataNode, ResourceManager, NodeManager Zookeepe

Hadoop2.2.0安装过程记录

1    安装环境1.1    客户端1.2    服务端1.3    安装准备    2    操作系统安装2.1.1    BIOS打开虚拟化支持2.1.2    关闭防火墙2.1.3    安装VNC3    JAVA安装    3.1    配置目的3.2    配置过程3.3    结果验证4    主机名配置4.1    配置目的4.2    配置过程4.3    结果验证5    增加hadoop用户5.1    配置目的5.2    配置过程5.3    结果验证6    Had

Hadoop2的HA安装(high availability):JournalNode+ zookeeper

前面介绍过使用NFS+zookeeper来解决namenode单点失败问题,因为NFS可能也会存在单点问题,所以hadoop提供了一种叫做JournalNode技术,这项技术可以在JournalNode节点间共享数据 我们来介绍这一种技术:JournalNode+ zookeeper Hadoop 版本:2.2.0 OS 版本: Centos6.4 Jdk 版本: jdk1.6.0_32 环境配置 机器名 Ip地址 功能 Hadoop1 192.168.124.135 NameNode, Dat