Ubuntu下hadoop2.4搭建集群(单机模式)

一、新建用户和用户组

注明：（这个步骤其实可以不用的，不过单独使用一个不同的用户好一些）

1.新建用户组

sudo addgroup hadoop

2.新建用户

sudo adduser -ingroup hadoop hadoop

3.添加hadoop用户权限

sudo gedit  /etc/sudoers

打开sudoer文件后添加hadoop用户

# User privilege specification
root    ALL=(ALL:ALL) ALL
hadoop  ALL=(ALL:ALL) ALL

4.使用hadoop用户登录

二、安装ssh

 sudo apt-get install openssh-server

安装完成后，启动服务

sudo /etc/init.d/ssh start

查看服务是否正确启动：ps -e | grep ssh

集群、单节点模式都需要用到SSH无密码登陆，首先设置SSH无密码登陆本机。

输入命令

ssh  localhost

首次登录需要输入yes

设置免密码登录，生成私钥和公钥

 ssh-keygen -t rsa -P ""

下面我们将公钥追加到authorized_keys中，它用户保存所有允许以当前用户身份登录到ssh客户端用户的公钥内容。

 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

然后使用ssh localhsot就可以无密码登录了。

使用exit退出登录

三、安装Java环境

以前的教程都是建议安装Oracle的JDK，不建议使用OpenJDK，不过按http://wiki.apache.org/hadoop/HadoopJavaVersions中说的，新版本在OpenJDK 1.7下是没问题的。通过命令安装OpenJDK 7。坑

sudoapt-getinstall openjdk-7-jreopenjdk-7-jdk

查看安装结果，输入命令：java -version，结果如下表示安装成功。

四、安装Hadoop 2.4.1

2.4.1的下载地址为: http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gz，安装教程主要参考了官方教程http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html。

下载后,解压到/usr/local/中。然后修改文件夹名为hadoop

赋予用户对该文件夹的读写权限（这个问题很是坑，我当时配置的时候被一些方法坑了，不太了解文件权限的东西）

有的建议是这样：

 sudo chmod 774 /usr/local/hadoop

但是我用这个命令之后，文件夹全部被隐藏了，都打不开。最后我是删除了hadoop文件夹，使用下面这个才解决的。

 sudo  chown -R hadoop:hadoop   /usr/local/hadoop

配置~/.bashrc

配置该文件前需要知道Java的安装路径，用来设置JAVA_HOME环境变量，可以使用下面命令行查看安装路径

update-alternatives - -config java

执行结果如下：

配置.bashrc文件

sudo gedit ~/.bashrc

#HADOOP VARIABLES START

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386

export HADOOP_INSTALL=/usr/local/hadoop

export PATH=$PATH:$HADOOP_INSTALL/bin

export PATH=$PATH:$HADOOP_INSTALL/sbin

export HADOOP_MAPRED_HOME=$HADOOP_INSTALL

export HADOOP_COMMON_HOME=$HADOOP_INSTALL

export HADOOP_HDFS_HOME=$HADOOP_INSTALL

export YARN_HOME=$HADOOP_INSTALL

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"

#HADOOP VARIABLES END

执行下面命，使添加的环境变量生效：

source ~/.bashrc

编辑/usr/local/hadoop/etc/hadoop/hadoop-env.sh

执行下面命令，打开该文件的编辑窗口

 sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh

找到JAVA_HOME变量，修改此变量如下

 export JAVA_HOME==/usr/lib/jvm/java-7-openjdk-i386

五、测试wordcount

单机模式安装完成，下面通过执行hadoop自带实例WordCount验证是否安装成功

/usr/local/hadoop路径下创建input文件夹

sudo mkdir input

拷贝README.txt到input

 cp README.txt input

执行WordCount

bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.4.0-sources.jar org.apache.hadoop.examples.WordCount input output

运行如下

执行 cat output/*，查看字符统计结果

结果如下

时间： 2024-10-22 12:23:24

Ubuntu下hadoop2.4搭建集群(单机模式)的相关文章

Ubuntu下用hadoop2.4搭建集群（伪分布式）

要真正的学习hadoop,就必须要使用集群,但是对于普通开发者来说,没有大规模的集群用来测试,所以只能使用伪分布式了.下面介绍如何搭建一个伪分布式集群. 为了节省时间和篇幅,前面一些步骤不再叙述.本文是在基于单机模式的前提下进行得搭建.若不会搭建单机模式,请看我的前一篇文章.Ubuntu下用hadoop2.4搭建集群(单机模式) 第一步配置hdfs-site.xml /usr/local/hadoop/etc/hadoop/hdfs-site.xml用来配置集群中每台主机都可用,指定主机上作为

Ubuntu14.04下Hadoop2.2.0集群搭建

系统版本: master: Ubuntu 14.04 salve1: Ubuntu 14.04 hadoop: hadoop 2.2.0 1.系统配置以及安装SSH无密码登陆环境(master&slaves): 修改本机(master)和子节点(slaveN)机器名:打开/etc/hostname文件 sudo gedit /etc/hostname (修改后需重启才能生效) 修改host文件(映射各个节点IP): sudo gedit /etc/hosts 在后面添加内容为: 172.22.

Nginx 在 Linux 下安装与搭建集群

搭建集群图例集群搭建图如下,为了简单一点,使用一个Nginx服务器+两个Tomcat服务器,省略数据库部分: 环境说明 Linux 为 CentOS 7.2 发行版 + Java jdk 1.8 + Tomcat 1.8 + Nginx 1.15 Linux 下安装 Nginx 下载nginx的tar包 //下载tar包 wget http://nginx.org/download/nginx-1.13.7.tar.gztar -xvf nginx-1.13.7.tar.g 安装gcc依赖Ng

Linux下Hadoop2.7.1集群环境的搭建（超详细版）

本文旨在提供最基本的,可以用于在生产环境进行Hadoop.HDFS分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用. 一.基础环境在Linux上安装Hadoop之前,需要先安装两个程序: 1.1 安装说明 1. JDK 1.6或更高版本(本文所提到的安装的是jdk1.7); 2. SSH(安全外壳协议),推荐安装OpenSSH. 下面简述一下安装这两个程序的原因: 1. Hadoop是用Java开发的,Hadoop的编译及MapReduce的运行都需要使用JDK. 2. Hadoo

Hadoop2.6.0 + Spark1.4.0 在Ubuntu14.10环境下的伪分布式集群的搭建（实践可用）

前言,之前曾多次搭建集群,由于疏于记录,每次搭建的时候到处翻阅博客,很是费劲,在此特别记录集群的搭建过程. 0.环境:Ubuntu14.10.Hadoop2.6.0.spark-1.4.0 1.安装jdk1.7 (1)下载jdk-7u25-linux-i586.tar.gz: (2)解压jdk-7u25-linux-i586.tar.gz,并将其移动到 /opt/java/jdk/路径下面 (3)配置java环境变量: 在 /etc/profile文件中追加 #set java env expo

Ubuntu 12.04下spark1.0.0 集群搭建（原创）

spark1.0.0新版本的于2014-05-30正式发布啦,新的spark版本带来了很多新的特性,提供了更好的API支持,spark1.0.0增加了Spark SQL组件,增强了标准库(ML.streaming.GraphX)以及对JAVA和Python语言的支持: 下面,我们首先进行spark1.0.0集群的安装,在这里我使用了两台服务器,一台作为master即namenode主机,另一台作为slave即datanode主机,增加更多的slave只需重复slave部分的内容即可.: 系统版本

Linux上搭建Hadoop2.6.3集群以及WIN7通过Eclipse开发MapReduce的demo

近期为了分析国内航空旅游业常见安全漏洞,想到了用大数据来分析,其实数据也不大,只是生产项目没有使用Hadoop,因此这里实际使用一次. 先看一下通过hadoop分析后的结果吧,最终通过hadoop分析国内典型航空旅游业厂商的常见安全漏洞个数的比例效果如下: 第一次正式使用Hadoop,肯定会遇到非常多的问题,参考了很多网络上的文章,我把自己从0搭建到使用的过程记录下来,方便以后自己或其他人参考. 之前简单用过storm,适合实时数据的处理.hadoop更偏向静态数据的处理,网上很多hadoop的

vmware10上三台虚拟机的Hadoop2.5.1集群搭建

? 由于官方版本的Hadoop是32位,若在64位Linux上安装,则必须先重新在64位环境下编译Hadoop源代码.本环境采用编译后的hadoop2.5.1 . 安装参考博客: 1 http://www.micmiu.com/bigdata/hadoop/hadoop2x-cluster-setup/ 2 http://f.dataguru.cn/thread-18125-1-1.html 3 http://blog.sina.com.cn/s/blog_611317b40100t5od.ht

复制虚拟机vmware centos搭建集群节点过程中网络配置eth0和eth1遇到的问题以及NAT模式下虚拟机静态IP配置方法

在centos中安装完第一个虚拟机后,一般习惯通过克隆的方式创建其它虚拟机,开后vmware无法发现网卡信息,系统认为这是重新安装,所以重新创建了一个新的网卡叫eth1. 并且用IFCONFIG-a查看网卡信息,只有lo信息,无法显示eth0了. 解决方法: 修改/etc/udev/rules.d 下的 70-persistent-net.rules文件,我们会发现下面两行: # PCI device 0x1022:0x2000(pcnet32) SUBSYSTEM=="net",DR