21世纪毋庸置疑是属于云的时代,各种云应运而生(云物联、云计算、云游戏、云存储....) 而hadoop正是云时代的产物,Hadoop是一个能够对大量数据进行分布式处理的软件框架, Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理.
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
- 高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
- 高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
- 高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- 高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
- 低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
下面我们来以Apache Hadoop* 软件的英特尔 分发版为例为大家介绍hadoop
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
下面来搭建hadoop环境
一、安装hadoop
准备:
centos6.2
Esxi5.5
Intelhadoop.tar.gz
FileZillaPortable(用于向centos中传送文件)
地址分配:
三台服务器各自安装esxi,在esxi上在架构centos
Esxi1 192.168.0.201
Esxi1 192.168.0.202
Esxi1 192.168.0.203
Hadoop1 192.168.0.101
Hadoop2 192.168.0.102
Hadoop3 192.168.0.103
每个hadoop节点硬盘大小160G,内存大小8G
Centos安装注意事项:
创建用户
hadoop1 密码[email protected]
Hadoop2 密码[email protected]
Hadoop3 密码[email protected]
安装系统:
系统安装完成后
把Intelhadoop.tar.gz传到/usr/hadoop中
然后解压
修改/etc/hosts文件
一路选yes,直到出现如下图所示的一步
安装Apache Hadoop*英特尔发布版和进行集群管理需要一个Linux系统的软件包资源库,这里可以选择在本地主机上创建一个资源库,或使用一个存在的资源库。如果选择在本地创建,则需要一个Linux系统的安装DVD光盘或则ISO文件来创建资源库。如果使用一个存在的资源库,须输入已存在的Linux系统资源库的URL。
这里选择通过加载系统镜像创建软件包资源库
在centos系统中加载镜像
由于不需要第二个镜像中的内容,在下面选择no(这里一定要注意)
其他两个节点的操作也像hadoop1节点的一样
二、web界面配置
Hadoop1、hadoop2和hadoop3节点安装完Apache hadoop* intel后,接下来进入webGUI界面进行节点配置,在web浏览器中输入https://hadoop1:9443,用户名和密码都是admin。
这里选择除了最后一项以外的所有内容
逐个添加节点
至此hadoop的环境就搭建完成了,我在搭建的过程中也产生一些错误,我会在以后的博客中去给大家做一些错误的实例以及解决办法。