CentOS上安装Hadoop2.7,添加数据节点,运行wordcount

安装hadoop的步骤比较繁琐,但是并不难。

在CentOS上安装Hadoop2.7

1. 安装 CentOS,注:图形界面并无必要

2. 在CentOS里设置静态IP,手工编辑如下4个文件

  • /etc/hosts
  • /etc/sysconfig/netwok
  • /etc/hostname
  • /etc/sysconfig/network-scripts/ifcfg-eno1677773

3. 关闭防火墙

  • Close firewalld
  • systemctl stop firewalld.service #停止firewall
  • systemctl disable firewalld.service #禁止firewall开机启动

4. 设置ssh无密登录

l   去掉/etc/ssh/sshd_config其中2行的注释

#RSAAuthentication yes

#PubkeyAuthentication yes

l  
输入命令,ssh-keygen -t rsa,生成key,都不输入密码,一直回车,/root就会生成.ssh文件夹,每台服务器都要设置

l  
合并公钥到authorized_keys文件,在Master服务器,进入/root/.ssh目录,通过SSH命令合并,

cat id_rsa.pub>> authorized_keys

l  
把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录

5. 为提高软件下载速度,可以把软件安装库转向阿里云

6. Install net-tools, yum, wget,
vim

7. Install Java

  • Yum list java*
  • [[email protected] www]# yum -y install java-1.8.0-openjdk.x86_64

8. Configure Java

  • [[email protected] ~]# which java

    /usr/bin/java

    [[email protected] ~]# ls -lrt /usr/bin/java

    lrwxrwxrwx. 1 root root 22 Aug 17 15:12
    /usr/bin/java -> /etc/alternatives/java

    [[email protected] ~]# ls -lrt
    /etc/alternatives/java

    lrwxrwxrwx. 1 root root 46 Aug 17 15:12
    /etc/alternatives/java -> /usr/lib/jvm/jre-1.7.0-openjdk.x86_64/bin/java

9. 从官网下载Hadoop “hadoop-2.7.0.tar.gz”放到/home/hadoop目录下

10. 输入命令解压

  • tar -xzvf hadoop-2.7.0.tar.gz

11. 在/home/hadoop目录下创建数据存放的文件夹,tmp、hdfs、hdfs/data、hdfs/name

12. 修改Hadoop设置

  • /Hadoop2.7.3/etc/Hadoop/hadoop-env.sh

export
JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-3.b12.e17_3.x86_64

  • /Hadoop2.7.3/etc/Hadoop/slaves
  • /Hadoop2.7.3/etc/Hadoop/mapred-site.xml
  • /Hadoop2.7.3/etc/Hadoop/hdfs-site.xml
  • /Hadoop2.7.3/etc/Hadoop/core-site.xml

13. 在Master服务器启动hadoop

  • 初始化

bin/hdfs namenode –format

l  全部启动sbin/start-all.sh,也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh

l  停止Hadoop服务

l  sbin/stop-all.sh

l  输入命令jps,可以看到节点相关信息

14. 访问Hadoop

添加新数据节点步骤

  • 安装CentOS,设置静态IP(4个配置文件)
  • 加入SSH免密码登录
  • SCP把Hadoop文件复制到新机器
  • 修改/Hadoop2.7.3/etc/Hadoop/slaves
  • 重新初始化
  • 重新启动hadoop服务

运行WordCount程序

1、在HDFS中创建目录input

hadoop fs -mkdir
/input

2、将本地的 PESXXX.txt上传到input中

hadoop fs -put PESXXX.txt /input

查看input目录下的文件

hadoop fs -ls
/input

查看PESXXX.txt文件内容

hadoop fs -cat
/input/ PESXXX.txt

3、运行程序

hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input
/output/

4、查看结果

查看输出目录hadoop
fs -ls /output

查看输出结果hadoop
fs -cat /output/part-r-0000

5、可在浏览器查看任务

http://192.168.1.15:8088

http://192.168.1.15:50070

时间: 2024-12-25 13:09:28

CentOS上安装Hadoop2.7,添加数据节点,运行wordcount的相关文章

在Centos上安装RabbitMQ流程(转)

在Centos上安装RabbitMQ流程------------------------ 1. 需求 由于项目中要用到消息队列,经过ActiveMQ与RabbitMQ的比较,最终选择了RabbbitMQ做为我们的消息系统,但是ActiveMQ在效率和可扩展性上都不错,只是网上很多人反应它会时常崩溃,而且随着消息并发数的增加,时常会出现连接很慢的情况.   目前我测试的服务器系统信息如下: LSB Version:    :core-3.1-amd64:core-3.1-ia32:core-3.1

在CentOS上安装Hadoop集群(一)-- Centos系统配置

在CentOS上安装Hadoop集群(一) 1.  Centos的系统配置 1.1打开终端方式: 方式1:在桌面单击右键,>>Open in terminal 方式2:Applications菜单上选择System tools -> Terminal 打开了 1.2配置网络环境 查看ip地址命令:ifconfig 网络安装命令:setup 重启网络服务命令:service network restart 网络连接命令:ifup eth0 如图所示,电脑有个红叉表示网络未连接 ifconf

Linux系统入门学习:在CentOS上安装phpMyAdmin

问题:我正在CentOS上运行一个MySQL/MariaDB服务,并且我想要通过网络接口来用phpMyAdmin来管理数据库.在CentOS上安装phpMyAdmin的最佳方法是什么? phpMyAdmin是一款以PHP为基础,基于Web的MySQL/MariaDB数据库管理工具.虽然已经存在着一些诸如Adminer的轻量级数据库管理工具, 但是phpMyAdmin还是更加广泛应用于网站管理员之中来进行各种MySQL/MariaDB的管理任务.它支持几乎所有MySQL数据库/表的相关操作,比如浏

什么是EPEL 及 Centos上安装EPEL

RHEL以及他的衍生发行版如CentOS.Scientific Linux为了稳定,官方的rpm repository提供的rpm包往往是很滞后的,当然了,这样做这是无可厚非的,毕竟这是服务器版本,安全稳定是重点,官方的rpm repository提供的rpm包也不够丰富,很多时候需要自己编译那太辛苦了,而EPEL恰恰可以解决这两方面的问题. 什么是EPEL? EPEL的全称叫 Extra Packages for Enterprise Linux .EPEL是由 Fedora 社区打造,为 R

CentOS上安装MongoDB速记

测试环境版本CentOS 6.5 先创建安装目标文件夹并进入至该文件夹: mkdir /opt/mongodb cd /opt/mongodb 给mongodb创建用户及用户组: groupadd mongodb useradd -g mongodb mongodb 下载安装所需源文件: 这个下载很慢,我收藏mongodb 2.6.1版本 可以从这里下载:http://pan.baidu.com/s/1nfAA6 或者从mongodb.org下载(很慢) curl -O http://downl

centos上安装supervisor来管理dotnetcore等应用程序

supervisor 介绍: 这是一款用python编写的进程管理工具,可以守护他管理的所有进程,防止异常退出,以及提供一个可视化的web界面来手动管理,打开关闭重启各种应用,界面如下: 关于在centos上安装supervisor: 1.通过yum安装: yum install supervisor 2.配置supervisor: 我们去用vim编辑/etc/supervisord.conf这个文件,可以看到有很多选项 第一个节点是UnixSocket,是unix进程间通信的,默认开启,后面本

什么是EPEL 及 Centos上安装EPEL(转)

什么是EPEL 及 Centos上安装EPEL 转自:http://www.unxmail.com/read.php?67 RHEL以及他的衍生发行版如CentOS.Scientific Linux为了稳定,官方的rpm repository提供的rpm包往往是很滞后的,当然了,这样做这是无可厚非的,毕竟这是服务器版本,安全稳定是重点,官方的rpm repository提供的rpm包也不够丰富,很多时候需要自己编译那太辛苦了,而EPEL恰恰可以解决这两方面的问题. 什么是EPEL? EPEL的全

CentOS上安装Oracle XE指南

引言: 在Centos上安装oracle XE主要用来解决学习和测试的用处,虽然简单,但也是涉及到了诸多的步骤和细节问题. 1.  下载Oracle XE 访问http://www.oracle.com/technetwork/cn/database/database-technologies/express-edition/downloads/index.html, 根据操作系统,选择版本下载即可. 2.  解压缩Oracle XE安装程序 unzip oracle-xe-11.2.0-1.0

CentOS上安装GitBlit服务

简单介绍 在上一篇文章中,已经简单的介绍了如何在CentOS的服务器上搭建git服务器.但是这种方式实现的服务器功能比较弱,操作起来也比较繁琐.在网上搜索了一圈,感觉Gitblit比较符合我的需求.接下来我就简单地介绍下,如何在CentOS上搭建GitBlit服务吧. GitBlit是一款纯Java库实现用来管理.查看和处理Git资料库,相当于Git的Java管理工具.该管理软件支持Windows和Linux平台.可以有效的对项目.用户权限进行控制和管理.比较适合小型团队进行管理控制. 看上面的