CentOS 下 Hadoop 环境搭建--Hadoop

---恢复内容开始---

①解压Hadoop到自定目录下面（这里解压到/opt/hadoop目录下）

　　tar -zxvf hadoop-2.5.0.tar.gz -C /opt/hadoop

②清理Hadoop目录，删除/opt/hadoop/hadoop-2.5.0/share/doc 文件

　　rm -rf /opt/hadoop/hadoop-2.5.0/share/doc

③修改文件，指定java安装目录

　　修改/hadoop-2.5.0/etc/hadoop/hadoop-env.sh文件

　　　　export JAVA_HOME=/opt/hadoop/jdk1.7.0_67

　　修改/hadoop-2.5.0/etc/hadoop/mapred-env.sh文件

　　　　export JAVA_HOME=/opt/hadoop/jdk1.7.0_67

　　　　修改/hadoop-2.5.0/etc/hadoop/yarn-env.sh文件

　　　　export JAVA_HOME=/opt/hadoop/jdk1.7.0_67

④测试

　　输入 bin/hadoop version 进行测试

⑤修改/hadoop-2.5.0/etc/hadoop/core-site.xml文件

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://MyComputer:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/hadoop-2.5.0/data/tmp</value>
<description>A base for other temporary directories.</description>

</property>

</configuration>

　　修改/hadoop-2.5.0/etc/hadoop/hdfs-site.xml文件

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

修改/hadoop-2.5.0/etc/hadoop/slaves 文件

　　指定从节点的机器位置，添加主机名即可

⑥格式化namenode

bin/hdfs namenode -format

　　格式化成功

⑦启动namenode 和datanode 两个服务

　　sbin/hadoop-daemon.sh start namenode

　　sbin/hadoop-daemon.sh start datanode

　　查看服务是否启动成功

　　jps

⑧查看HDFS外部界面

　　IP地址：50070 或者主机名：50070

⑨测试HDFS环境：

　　创建文件夹：bin/hdfs dfs -mkdir -p haoxin/input

　　上传文件到HDFS：bin/hdfs dfs -put etc/hadoop/core-site.xml /

　　读取文件内容：bin/hdfs dfs -text /core-site.xml

　　下载到本地：bin/hdfs dfs -get /core-site.xml /home/haoxin/Music/get-sit.xml

⑩修改/hadoop-2.5.0/etc/hadoop/mapred-site.xml文件

<property>

	 	<name>mapreduce.framework.name</name>

		 <value>yarn</value>

	 </property>

修改/hadoop-2.5.0/etc/hadoop/yan-site.xml文件

<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>

</property>
<property>

		    <description>The hostname of the RM.</description>
		    <name>yarn.resourcemanager.hostname</name>
		    <value>MyComputer</value>

</property>

启动yarn 的两个resourcemanager 和 nodemanager 这两个服务

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

查看yarn的外部界面

　　IP地址：8088 或者主机名：8088

测试环境，运行mapreduce, wordcount 单词统计案例

　　新建数据文件并写入内容，用于测试 /opt/datas/file_text.txt

　　数据上传到HDFS bin/hdfs dfs -put /opt/datas/file_text.txt /user/haoxin/haoxin/input

　　运行：bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount

/user/haoxin/haoxin/input /user/haoxin/haoxin/output

---恢复内容结束---

时间： 2024-10-28 20:06:42

CentOS 下 Hadoop 环境搭建--Hadoop的相关文章

转载自php100中文网 centos下lamp 环境搭建

学习PHP脚本编程语言之前,必须先搭建并熟悉开发环境,开发环境有很多种,例如LAMP.WAMP.MAMP等.这里我介绍一下LAMP环境的搭建,即Linux.Apache.MySQL.PHP环境. 一.首先安装操作系统操作系统:centos6.3 IP地址:192.168.146.129 网关: DNS: 操作系统安装步骤,此处不在给出截图. 备注:服务器系统采用最小化安装,安装一下GCC编译工具和一个桌面即可.如下图所示: <a href="http://www.php100.com/u

CentOS下j2ee环境搭建

转自:http://www.cnblogs.com/xiaoluo501395377/archive/2013/04/01/2994485.html 因为是做j2ee后台开发的,所以在Linux上搭建j2ee环境是每一个java程序员所需要掌握的.所以这篇随笔主要记录一下j2ee环境搭建过程,包括jdk.tomcat.eclipse的安装,(对于mysql数据库的安装,将会在后面的随笔中记录). 一.jdk1.7的安装及环境搭建在CentOS6.4安装完以后,系统默认安装了jdk1.6,以及j

Centos下LAMP环境搭建

判断是否安装:rpm -qa|grep apache/php/mysql 安装APACHE Yum –y installhttpd 默认web根目录为/var/www/html 启动:service httpd start 备注:Apache启动之后会提示错误: 正在启动 httpd:httpd:Could not reliably determine the server's fully qualif domain name, using ::1 forServerName

环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一

一.前言以下简介摘自官方 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.接下来我们使用的是Hive Hive简介 Hive 是一个基于 Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据. 它把海量数据存储于 hadoop 文件

完全分布式模式的Hadoop环境搭建

一.本文说明:本次测试在五台虚拟机系统上进行完全分布式搭建.Hadoop分布式模式是在多台机器上分布式部署,配置非常类似于伪分布式,名称节点和数据节点都分布在不同的主机上,每台数据节点上都有相应的任务调度. 二.环境说明: 虚拟软件:VM10.0 操作系统:Cent Os 6.7 hadoop版本:hadoop-2.7.2 JDK版本:jdk1.8_77备注:基于独立模式基础上搭建,参考文章:独立模式的Hadoop环境搭建. 三.基本环境配置

伪分布式模式的Hadoop环境搭建

一.本文说明: 本次测试在一台虚拟机系统上进行伪分布式搭建.Hadoop伪分布式模式是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式.Hadoop本身是无法区分伪分布式和分布式的,两种配置也很相似.唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器. 二.环境说明: 操作系统:Cent Os 6.7 hadoop版本:hadoop-2.7.2 JDK版本:jdk1.8_77 备注:

hadoop环境搭建之关于NAT模式静态IP的设置 ---VMware12+CentOs7

很久没有更新了,主要是没有时间,今天挤出时间验证了一下,果然还是有些问题的,不过已经解决了,就发上来吧. PS:小豆腐看仔细了哦~ 关于hadoop环境搭建,从单机模式,到伪分布式,再到完全分布式,我们这里就讨论完全分布式,关于搭建工具,有hadoop+CentOs+VMware,感觉各个版本还是有一点差异的. 随后可能会整理出一个常用版本,今天先说说VM的静态IP的设置吧: 关于VM,大家可能不陌生,目前也是windows系统搭建模拟hadoop环境的必要软件之一. 但是,由于有些人会经常改变

Nutch+hadoop环境搭建

以前搭建环境或是配置软件从来都没有留Tips的习惯,但实践证明这是错误的--做过不等于记得怎么做,遇到过的错误也不等于今后就不是错误了.Nutch跟Hadoop的搭建困扰了我很久,但回头看看又觉得真正有些问题的其实就几个关键点,所以觉得花些时间写个简单流程,缅怀一下最近的探索,也希望能给想要搭建Nutch或hadoop的同学提供一些帮助.欢迎大家指正. 想要说明一下的是,虽然说hadoop诞生于nutch,但现在hadoop已经完全独立为一个分布式框架,我们可以简单地理解为nutch只是跑在h

Hadoop HA + HBase环境搭建（一）————zookeeper和hadoop环境搭建

版本信息: Hadoop 2.6.3 HBase 1.0.3 JDK 1.8 Zookeeper 3.4.9 集群信息: RDFMaster 192.168.0.41 (Hadoop主节点,zk节点,HBase主节点) RDFSlave01 192.168.0.42 (Hadoop备份主节点,从节点,zk节点,HBase的RegionServer) RDFSlave02 192.168.0.43 (从节点,zk节点,HBase的RegionServer) RDFSlave03 192.168.0