mark一下。hadoop分布式系统搭建

用于测试，我用4台虚拟机搭建成了hadoop结构

我用了两个台式机。一个xp系统，一个win7系统。每台电脑装两个虚拟机，要不然内存就满了。

1、安装虚拟机环境

Vmware，收费产品，占内存较大。

或

Oracle的VirtualBox，开源产品，占内存较小，但安装ubuntu过程中，重启会出错。

我选Vmware。

2、安装操作系统

Centos，红帽开源版，接近于生产环境。

Ubuntu，操作简单，方便，界面友好。

我选Ubuntu12.10.X 32位

3、安装一些常用的软件

在每台linux虚拟机上，安装：vim，ssh

sudo apt-get install vim

sudo apt-get install ssh

在客户端，也就是win7上，安装SecureCRT，Winscp或putty，这几个程序，都是依靠ssh服务来操作的，所以前提必须安装ssh服务。

service ssh status 查看ssh状态。如果关闭使用service ssh start开启服务。

SecureCRT，可以通过ssh远程访问linux虚拟机。

winSCP或putty，可以从win7向linux上传文件。

4、修改主机名和网络配置

主机名分别为：master，host2，host3，host4。

sudo vim /etc/hostname

网络配置，包括ip地址，子网掩码，DNS服务器。如上图所示。

5、修改/etc/hosts文件。

修改每台电脑的hosts文件。

hosts文件和windows上的功能是一样的。存储主机名和ip地址的映射。

在每台linux上，sudo vim /etc/hosts 编写hosts文件。将主机名和ip地址的映射填写进去。编辑完后，结果如下：

6、配置ssh，实现无密码登陆

无密码登陆，效果也就是在master上，通过 ssh host2 或 ssh host3 或 ssh host4 就可以登陆到对方计算机上。而且不用输入密码。

四台虚拟机上，使用 ssh-keygen -t rsa 一路按回车就行了。

刚才都作甚了呢？主要是设置ssh的密钥和密钥的存放路径。路径为~/.ssh下。

打开~/.ssh 下面有三个文件

authorized_keys，已认证的keys

id_rsa，私钥

id_rsa.pub，公钥三个文件。

下面就是关键的地方了，（我们要做ssh认证。进行下面操作前，可以先搜关于认证和加密区别以及各自的过程。）

①在master上将公钥放到authorized_keys里。命令：sudo cat id_rsa.pub >> authorized_keys

②将master上的authorized_keys放到其他linux的~/.ssh目录下。

命令：sudo scp authorized_keys [email protected]:~/.ssh

sudo scp authorized_keys 远程主机用户名@远程主机名或ip:存放路径。

③修改authorized_keys权限，命令：chmod 644 authorized_keys

④测试是否成功

ssh host2 输入用户名密码，然后退出，再次ssh host2不用密码，直接进入系统。这就表示成功了。

7、上传jdk，并配置环境变量。

通过winSCP将文件上传到linux中。将文件放到/usr/lib/java中，四个linux都要操作。

解压缩：tar -zxvf jdk1.7.0_21.tar

设置环境变量 sudo vim ~/.bashrc

在最下面添加：

export JAVA_HOME = /usr/lib/java/jdk1.7.0_21

export PATH = $JAVA_HOME/bin:$PATH

修改完后，用source ~/.bashrc让配置文件生效。

8、上传hadoop，配置hadoop

通过winSCP，上传hadoop，到/usr/local/下，解压缩tar -zxvf hadoop1.2.1.tar

再重命名一下，sudo rm hadoop1.2.1 hadoop

这样目录就变成/usr/local/hadoop

①修改环境变量，将hadoop加进去（最后四个linux都操作一次）

sudo vim ~/.bashrc

export HADOOP_HOME = /usr/local/hadoop

export PATH = $JAVA_HOme/bin:$HADOOP_HOME/bin:$PATH

修改完后，用source ~/.bashrc让配置文件生效。

②修改/usr/local/hadoop/conf下配置文件

hadoop-env.sh，

core-site.xml，

hdfs-site.xml，

mapred-site.xml，

master，

slave，

上面的hadoop-env.sh，core-site.xml，mapred-site.xml，hdfs-site.xml，master，slave几个文件，在四台linux中都是一样的。

配置完一台电脑后，可以将hadoop包，直接拷贝到其他电脑上。

③最后要记得，将hadoop的用户加进去，命令为

sudo chown -R [email protected] hadoop

sudo chown -R 用户名@用户组目录名

④让hadoop配置生效

source hadoop-env.sh

⑤格式化namenode，只格式一次

hadoop namenode -format

⑥启动hadoop

切到/usr/local/hadoop/bin目录下，执行 start-all.sh启动所有程序

⑦查看进程，是否启动

jps

master，

host2，

host3，host4，的显示结果，与host2相同。

点击此处-去我的博客园 http://www.cnblogs.com/laov/p/3421479.html

时间： 2024-09-29 15:36:11

mark一下。hadoop分布式系统搭建的相关文章

hadoop分布式系统下的mapreduce java小程序计算网站uv

一.准备工作 1.1 搭建hadoop分布式系统,博主是用3台虚拟机搭建的一个简易hadoop分布式系统. linux 5.5 64位 hadoop2.6.0 192.168.19.201 h1 (master) 192.168.19.202 h2 (slaver1) 192.168.19.203 h3 (slaver2) 1.2 准备网站访问IP文件由于是实验,一个简单的txt文件即可如:vim a.txt 10.0.0.1 10.0.0.2 10.0.0.

hadoop2.7.0分布式系统搭建(ubuntu14.04)

因为使用需要,在自己小本上建了四个虚拟机,打算搭建一个1+3的hadoop分布式系统. 环境:hadoop2.7.0+ubuntu14.04 (64位) 首先分别为搭建好的虚拟机的各主机重命名方法:vi /etc/hostname 例如:ubuntu0 ubuntu1 ubuntu2 ubuntu3 一. 配置hosts文件通过ifconfig命令查看虚拟机的IP,配置hosts文件方法:vi /etc/hosts 192.168.186.XXX ubuntu0 192.168.186.X

完全分布式模式的Hadoop环境搭建

一.本文说明:本次测试在五台虚拟机系统上进行完全分布式搭建.Hadoop分布式模式是在多台机器上分布式部署,配置非常类似于伪分布式,名称节点和数据节点都分布在不同的主机上,每台数据节点上都有相应的任务调度. 二.环境说明: 虚拟软件:VM10.0 操作系统:Cent Os 6.7 hadoop版本:hadoop-2.7.2 JDK版本:jdk1.8_77备注:基于独立模式基础上搭建,参考文章:独立模式的Hadoop环境搭建. 三.基本环境配置

伪分布式模式的Hadoop环境搭建

一.本文说明: 本次测试在一台虚拟机系统上进行伪分布式搭建.Hadoop伪分布式模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式.Hadoop本身是无法区分伪分布式和分布式的,两种配置也很相似.唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器. 二.环境说明: 操作系统:Cent Os 6.7 hadoop版本:hadoop-2.7.2 JDK版本:jdk1.8_77 备注:

hadoop环境搭建之关于NAT模式静态IP的设置 ---VMware12+CentOs7

很久没有更新了,主要是没有时间,今天挤出时间验证了一下,果然还是有些问题的,不过已经解决了,就发上来吧. PS:小豆腐看仔细了哦~ 关于hadoop环境搭建,从单机模式,到伪分布式,再到完全分布式,我们这里就讨论完全分布式,关于搭建工具,有hadoop+CentOs+VMware,感觉各个版本还是有一点差异的. 随后可能会整理出一个常用版本,今天先说说VM的静态IP的设置吧: 关于VM,大家可能不陌生,目前也是windows系统搭建模拟hadoop环境的必要软件之一. 但是,由于有些人会经常改变

Nutch+hadoop环境搭建

以前搭建环境或是配置软件从来都没有留Tips的习惯,但实践证明这是错误的--做过不等于记得怎么做,遇到过的错误也不等于今后就不是错误了.Nutch跟Hadoop的搭建困扰了我很久,但回头看看又觉得真正有些问题的其实就几个关键点,所以觉得花些时间写个简单流程,缅怀一下最近的探索,也希望能给想要搭建Nutch或hadoop的同学提供一些帮助.欢迎大家指正. 想要说明一下的是,虽然说hadoop诞生于nutch,但现在hadoop已经完全独立为一个分布式框架,我们可以简单地理解为nutch只是跑在h

Hadoop HA + HBase环境搭建（一）————zookeeper和hadoop环境搭建

版本信息: Hadoop 2.6.3 HBase 1.0.3 JDK 1.8 Zookeeper 3.4.9 集群信息: RDFMaster 192.168.0.41 (Hadoop主节点,zk节点,HBase主节点) RDFSlave01 192.168.0.42 (Hadoop备份主节点,从节点,zk节点,HBase的RegionServer) RDFSlave02 192.168.0.43 (从节点,zk节点,HBase的RegionServer) RDFSlave03 192.168.0

服务器Hadoop+Hive搭建

出于安全稳定考虑很多业务都需要服务器服务器Hadoop+Hive搭建,但经常有人问我,怎么去选择自己的配置最好,今天天气不错,我们一起来聊一下这个话题. Hadoop+Hive环境搭建 1虚拟机和系统安装+JDK环境 JDK安装采用二进制包压缩方式(解压之后就是直接可用了,但需要修改环境变量,使其任何路径下都可行) 修改/etc/profile,~/.bashrc 配置文件,修改环境变量. 2 Hadoop安装 Hadoop安装采用二进制文件压缩方式三种方式 1 单机:修改环境变量使得Had

通过hadoop + hive搭建离线式的分析系统之快速搭建一览

最近有个需求,需要整合所有店铺的数据做一个离线式分析系统,曾经都是按照店铺分库分表来给各自商家通过highchart多维度展示自家的店铺经营状况,我们知道这是一个以店铺为维度的切分,非常适合目前的在线业务,这回老板提需求了,曾经也是一位数据分析师,sql自然就溜溜的,所以就来了一个以买家维度展示用户画像,从而更好的做数据推送和用户行为分析,因为是离线式分析,目前还没研究spark,impala,drill了. 一:搭建hadoop集群 hadoop的搭建是一个比较繁琐的过程,采用3台