hadoop单机版安装及基本功能演示

本文所使用的Linux发行版本为：CentOS Linux release 7.4.1708 (Core)

hadoop单机版安装

准备工作

创建用户

useradd -m hadoop
passwd hadoop

下载安装包

1.jdk

到官方下载页面http://www.oracle.com/technetwork/java/javase/downloads/index.html，下载jdk，我下载的版本为jdk-8u151-linux-x64.tar.gz。

2.hadoop安装包

到hadoop官网下载hadoop的二进制包，我使用的版本为：hadoop-2.7.5.tar.gz。

将jdk和hadoop的包上传到linux上，路径为：/home/hadoop。

hadoop安装及配置

安装

以hadoop用户登录，分别解压jdk和hadoop的包。

tar -zxvf jdk-8u151-linux-x64.tar.gz
tar -zxvf hadoop-2.7.5.tar.gz

重命名hadoop的目录

mv hadoop-2.7.5/ hadoop/

hadoop运行环境配置

进入到hadoop的目录/home/hadoop/hadoop

vi etc/hadoop/hadoop-env.sh

设置jdk的路径

# The java implementation to use.
export JAVA_HOME=/home/hadoop/jdk1.8.0_151

使用hadoop进行单词统计

创建输入文件目录及测试文件

mkdir input4test

vi input4test/1.txt
hadoop is an open-source software

vi input4test/2.txt
I want to learn hadoop

执行单词统计操作

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount ./input4test ./output4test

查看统计结果

cat output4test/part-r-00000

I   1
an  1
hadoop  2
is  1
learn   1
open-source 1
software    1
to  1
want    1

hdfs相关配置及操作

配置hdfs

进入到hadoop的目录/home/hadoop/hadoop

修改配置文件etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改配置文件etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

设置免密码登录

$ ssh-keygen -t rsa -P ‘‘ -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

hdfs格式化及启动

hdfs格式化
```
bin/hdfs namenode -format
```
hdfs启动
```
sbin/start-dfs.sh
```
查看hdfs状态
在浏览器中输入http://IP:50070，可以查看hdfs的状态。如果50070端口没有打开，输入下面命令打开50070端口。
```
iptables -I INPUT -p tcp --dport 50070 -j ACCEPT
```

hdfs基本操作

查看文件和文件夹

bin/hadoop dfs -ls -R /

该命令表示以递归方式查看根目录下的所有文件和文件夹。

创建目录

bin/hadoop dfs -mkdir /input

上传文件到hdfs

bin/hadoop hdfs -put input4test/1.txt /input/
bin/hadoop hdfs -put input4test/2.txt /input/

该命令表示将本地input4test/1.txt和2.txt文件上传到hdfs中的/input目录下。

查看文件内容

bin/hadoop dfs -cat  /input/1.txt

通过YARN调度

配置YARN

修改配置文件etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

修改配置文件etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

启动YARN

sbin/start-yarn.sh

查看YARN状态

在浏览器中输入http://IP:8088，可以查看YARN的状态。如果8088端口没有打开，输入下面命令打开8088端口。

iptables -I INPUT -p tcp --dport 8088 -j ACCEPT

再次执行单词统计操作

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /input /output

本次执行的输入和输出目录，都是hdfs的目录。

查看统计结果

bin/hadoop dfs -cat /output/part-r-00000

和之前的结果一样。

I   1
an  1
hadoop  2
is  1
learn   1
open-source 1
software    1
to  1
want    1

时间： 2024-10-14 01:00:09

hadoop单机版安装及基本功能演示的相关文章

habase单机版安装及基本功能演示

本文所使用的Linux发行版本为:CentOS Linux release 7.4.1708 (Core) 准备工作创建用户 useradd -m hadoop passwd hadoop 下载安装包 1.jdk 到官方下载页面http://www.oracle.com/technetwork/java/javase/downloads/index.html,下载jdk,我下载的版本为jdk-8u151-linux-x64.tar.gz. 2.hbase安装包到hadoop官网下载hadoo

Hadoop单机版安装配置

[toc] Hadoop单机版安装配置前言 Hadoop单机版本的环境搭建比较简单,这里总结一下. Centos基本配置网络配置 IPADDR=192.168.43.101 NETMASK=255.255.255.0 GATEWAY=192.168.43.2 DNS1=202.96.128.166 DNS2=202.96.128.86 配置完成后重启网络: service network restart 修改主机名和IP地址映射文件 vim /etc/sysconfig/network 将H

Hadoop单机版安装

前置条件: 1.ubuntu10.10安装成功(个人认为不必要花太多时间在系统安装上,我们不是为了装机而装机的) 2.jdk安装成功(jdk1.6.0_23for linux版本,图解安装过程http://freewxy.iteye.com/blog/882784 ?) 3.下载hhadoop0.21.0.tar.gz(http://apache.etoak.com//hadoop/core/hadoop-0.21.0/ ) ? ? ? ? 安装hadoop 1.首先将hadoop0.21.0.

Hadoop的安装模式

Hadoop的安装模式分为三种:单机模式.伪分布模式.全分布模式单机模式,这是默认的安装模式,也是占用资源最少的模式,配置文件不用修改.完全运行在本地,不与其他节点交互,也不使用Hadoop文件系统,不加载任何守护进程,主要用于开发调试MapReduce应用程序. 伪分布模式,即单节点集群模式,所有的守护进程都运行在同一台机子上.这种模式增加了代码调试功能,可以查看内存.HDFS的输入/输出,以及与其他守护进程之间的交互. 全分布模式,真正分布式集群配置,用于生产环境.

Hadoop Cluster 安装

本篇源自Hadoop官网,先将中文翻译如下. 目标本文章主要是描述如何安装和配置几个节点的Hadoop clusters,甚至于数以千计的节点数.为了了解详细的安装步骤,需要先了解如何安装在单台机器上. 本文档不包含高级的设置点,比如:安全性或者高可用性. 准备需要安装Java环境从Apache网站下载一个稳定的Hadoop安装镜像安装搭建一个Hadoop集群需要将软件安装到集群中的所有机器中,或者一个适合当前操作系统集成的系统.这样做的目标就是区分不同的硬件安装不同的功能. 典型的安

Vmware Vcenter Converter 详细安装配置及功能介绍

Vmware vCenter Converter Standalone是一种用于将虚拟机和物理机转换为VMware虚拟机的可扩展解决方案(vmware vsphere converter可以自动化和简化物理机到虚拟机及虚拟机格式之间的转化过程,就是一个P2V.v2p的迁移克隆过程).它支持将windows和linux操作系统用作源,可以执行若干转换任务:总结为:vmware vcenter converter可以将正在运行的远程物理机和虚拟机作为虚拟机导入到vCenter Server管理的独立

Hadoop Hive安装，配置mysql元数据库

由于Hive依赖于Hadoop,安装Hive之前必须确认Hadoop可用,关于Hadoop的安装可以参考集群分布式 Hadoop安装详细步骤,这里不再叙述. 1.下载Hive安装包下载地址为:http://www.apache.org/dyn/closer.cgi/hive(或点击下面链接),选择一个稳定版本,假设下载的版本为:apache-hive-1.0.1-bin.tar.gz,解压: tar -zxvf apache-hive-1.0.1-bin.tar.gz 在apache的下载列表

SQL Server 2008 (R2) 单机版安装的先决条件

原文:SQL Server 2008 (R2) 单机版安装的先决条件出自:http://blogs.msdn.com/b/apgcdsd/archive/2012/03/07/sql-server-2008-r2.aspx 在为客户提供技术支持时,发现安装SQL Server 2008 (R2) 单机版出现的问题很多源于以下几个典型情况,而客户们有所不知,这正是SQL Server 安装所必须的先决条件: 1. .NET Framework 3.5 SP1 2. Win