伪分布式hadoop环境搭建

官网上的教程版本不符,还过于简单(很多必要的步骤没提到),

所以自行网上找教程.

在这里整理一下:

假设java_home已经配置完成,ssh也可连通

1.修改配置文件

以下文件均在 %HADOOP_HOME%/conf/ 下

core-site.xml: Hadoop Core的配置项，例如HDFS和MapReduce常用的I/O设置等。

hdfs-site.xml: Hadoop 守护进程的配置项，包括namenode，辅助namenode和datanode等。

mapred-site.xml： MapReduce 守护进程的配置项，包括jobtracker和tasktracker。

预先建立好文件目录:

~/hadoop$ mkdir tmp

~/hadoop$ mkdir hdfs

~/hadoop$ mkdir hdfs/name

~/hadoop$ mkdir hdfs/data

配置内容:

core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://localhost:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/hadoop/hadoop-1.2.1/tmp</value>
        </property>

</configuration>

hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.name.dir</name>
                <value>/usr/hadoop/hadoop-1.2.1/hdfs/name</value>
        </property>
        <property>
                <name>dfs.data.dir</name>
                <value>/usr/hadoop/hadoop-1.2.1/hdfs/data</value>
        </property>
</configuration>

mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>localhost:9001</value>
        </property>

</configuration>

2.格式化

[[email protected] hadoop-1.2.1]# bin/hadoop namenode -format

3.开启

[[email protected] hadoop-1.2.1]# bin/start-all.sh

测试:

jps

使用web浏览器查看:

http://localhost:50030/ - Hadoop 管理介面

http://localhost:50060/ - Hadoop Task Tracker 状态

http://localhost:50070/ - Hadoop DFS 状态

4.执行map-reduce示例

创建hdfs上的input

[[email protected] hadoop-1.2.1]# bin/hadoop dfs -mkdir input

配置拷上去

[[email protected] hadoop-1.2.1]# hadoop dfs -copyFromLocal conf/* input

执行java文件

[[email protected] hadoop-1.2.1]# hadoop jar hadoop-examples-1.2.1.jar wordcount input output

完成:

时间： 2024-10-28 07:18:44

伪分布式hadoop环境搭建的相关文章

单机伪分布式Hadoop环境搭建

1.安装和配置JDK 具体操作见笔记 http://www.cnblogs.com/DreamDriver/p/6597178.html 2.创建Hadoop用户为Hadoop创建一个专门的用户,可以在系统安装的时候就创建,也可以在系统安装好之后用如下命令创建: # groupadd hadoop-user # useradd -g hadoop-user hadoop # passwd hadoop 3.下载安装Hadoop 4.配置SSH (1)生成密钥对时,执行如下命名 # ssh-ke

windows下单机版的伪分布式solrCloud环境搭建Tomcat+solr+zookeeper

前面简单了解了ZooKeeper的相关知识,为SolrCloud的学习作了一层铺垫.在SolrCloud的wiki中,可以很简单地用jetty实现嵌入式ZooKeeper的单机版SolrCloud.但是在生产环境中,Solr一般都是部署在Tomcat上的.为了使架构更加灵活,ZooKeeper也是单独部署的.日常学习中,就一台单机怎么学习solrCloud呢?本文将记录在win7上实现ZooKeeper+Tomcat版的伪分布式SolrCloud. 1.软件工具箱在本文的实践中,需要用到以下的

在虚拟机环境下，电脑间拷贝配置好的伪分布式Hadoop环境，出现namenode不能启动的问题！

原因:在原来的电脑上配置伪分布的时候,已经将hostname与IP绑定了,所以拷贝到别的电脑的时候,重新启动的时候就会失败,因为新的电脑的IP不见得就和原来的电脑的IP一样!因为在不同的网络中,在NAT模式下Linux的IP肯定是位于不同的网段的!! 解决方法:vi /etc/hosts 将原来的电脑的IP改成新的电脑的IP即可. 另外:重新格式化hadoop的时候,要把原来的hadoop下的tmp目录下的所有文件都删除掉,然后停止所有的进程,如datanode等.然后利用hadoop na

伪分布式模式的Hadoop环境搭建

一.本文说明: 本次测试在一台虚拟机系统上进行伪分布式搭建.Hadoop伪分布式模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式.Hadoop本身是无法区分伪分布式和分布式的,两种配置也很相似.唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器. 二.环境说明: 操作系统:Cent Os 6.7 hadoop版本:hadoop-2.7.2 JDK版本:jdk1.8_77 备注:

完全分布式模式的Hadoop环境搭建

一.本文说明:本次测试在五台虚拟机系统上进行完全分布式搭建.Hadoop分布式模式是在多台机器上分布式部署,配置非常类似于伪分布式,名称节点和数据节点都分布在不同的主机上,每台数据节点上都有相应的任务调度. 二.环境说明: 虚拟软件:VM10.0 操作系统:Cent Os 6.7 hadoop版本:hadoop-2.7.2 JDK版本:jdk1.8_77备注:基于独立模式基础上搭建,参考文章:独立模式的Hadoop环境搭建. 三.基本环境配置

Hadoop伪分布式集群搭建总结

Hadoop伪分布式集群搭建总结一.所需软件VMware15!CentOS6.5JDK1.8Hadoop2.7.3二.安装注意:对文件进行编辑:输入a,表示对该文件进行编辑,最后保存该文件,操作为:点击键盘上的Esc按钮,然后输入英文的:字符,再输入wq,点击回车,完成文件的保存.1.关闭防火墙和禁用SELINUX(1).永久关闭防火墙,重启Linux系统(2) .禁用SELINUX:修改文件参数重启Linux使其生效(3).检查防火墙是否运行,显示下图即为关闭2.配置hostname与IP

hadoop环境搭建之关于NAT模式静态IP的设置 ---VMware12+CentOs7

很久没有更新了,主要是没有时间,今天挤出时间验证了一下,果然还是有些问题的,不过已经解决了,就发上来吧. PS:小豆腐看仔细了哦~ 关于hadoop环境搭建,从单机模式,到伪分布式,再到完全分布式,我们这里就讨论完全分布式,关于搭建工具,有hadoop+CentOs+VMware,感觉各个版本还是有一点差异的. 随后可能会整理出一个常用版本,今天先说说VM的静态IP的设置吧: 关于VM,大家可能不陌生,目前也是windows系统搭建模拟hadoop环境的必要软件之一. 但是,由于有些人会经常改变

Nutch+hadoop环境搭建

以前搭建环境或是配置软件从来都没有留Tips的习惯,但实践证明这是错误的--做过不等于记得怎么做,遇到过的错误也不等于今后就不是错误了.Nutch跟Hadoop的搭建困扰了我很久,但回头看看又觉得真正有些问题的其实就几个关键点,所以觉得花些时间写个简单流程,缅怀一下最近的探索,也希望能给想要搭建Nutch或hadoop的同学提供一些帮助.欢迎大家指正. 想要说明一下的是,虽然说hadoop诞生于nutch,但现在hadoop已经完全独立为一个分布式框架,我们可以简单地理解为nutch只是跑在h

实战1 伪分布式Hadoop单节点实例 CDH4集群安装 Hadoop

Hadoop由两部分组成分布式文件系统HDFS 分布式计算框架MapReduce 其中分布式文件系统(HDFS)主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统之上,对于存储在分布式文件系统中的数据进行分布式计算. 详细的介绍个节点的作用 NameNode: 1.整个Hadoop集群中只有一个NameNode.它是整个系统的中枢,它负责管理HDFS的目录树和相关文件元数据信息.这些信息是以"fsimage (HDFS元数据镜像文件)和Editlog(HDFS文件改动