安装hadoop1.2.1(参考hadoop实战第二版)

准备：

　　安装jdk和ssh。

1. 官网下载hadoop1.2.1

　　hadoop-1.2.1.tar.gz

　　http://hadoop.apache.org/releases.html

2. 解压到/home/hadoop/目录下

3. 伪分布式hadoop配置

　　可以把伪分布式的hadoop看做只有一个节点的集群，在这个集群中，这个节点既是Master，也是Slave；既是NameNode，也是DataNode；既是JobTracker，也是TaskTracker。伪分布式的配置过程很简单，只需要修改几个文件。进入conf文件夹，修改配置文件。

指定JDK的安装位置：修改hadoop-env.sh如下

#添加jdk路径
export JAVA_HOME=/usr/lib/jvm7/jdk1.7.0_79

修改core-site.xml

<!-- 配置HDFS的地址及端口号-->
<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改hdfs-site.xml

　　该文件用来配置hdfs，配置的默认备份方式是3，单机版的hadoop中需要改为1.

<!-- 设置HDFS备份方式 -->
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

修改mapred-site.xml

该文件是MapReduce的配置文件，配置JobTracker的地址和端口。

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>
</configuration>

4. 在启动hadoop之前，需要格式化hadoop的文件系统hdfs。

　　hadoop namenode -format

5. 启动所有进程

　　bin/start-all.sh

6. 打开浏览器输入网址

　　http://localhost:50030(MapReduce的web页面)

　　http://localhost:50070(HDFS的web页面)

WordCount:

1. 在file文件夹下创建两个文件

echo "hello world" > file0.txt
echo "hello hadoop" > file1.txt

2. 将新创建的两个文件上传到HDFS

hadoop dfs -put file /input

3. 编译WordCount.java

javac -classpath ~/hadoop/hadoop-1.2.1/hadoop-core-1.2.1.jar:~/hadoop/hadoop-1.2.1/lib/commons-cli-1.2.jar ~/hadoop/WordCount/WordCount.java -d ~/hadoop/WordCountJar

4. 打包class文件

jar -cvf wordcount.jar ./*.class

5. 在hadoop中运行wordcount.jar文件

hadoop jar wordcount.jar WordCount input output

6. HDFS常用命令(待编辑)

    hadoop dfs -mkdir /file              在HDFS上新建文件夹

    hadoop dfs -put input1.txt /input  把本地文件input1.txt传到HDFS的/tmp/input目录下

   hadoop dfs -get  input1.txt /tmp/input/input1.txt  把HDFS文件拉到本地

    hadoop dfs -ls /tmp/output                  列出HDFS的某目录
    hadoop dfs -cat /tmp/ouput/output1.txt  查看HDFS上的文件

    hadoop dfs -rmr /home/less/hadoop/tmp/output  删除HDFS上的目录

    hadoop dfsadmin -report 查看HDFS状态，比如有哪些datanode，每个datanode的情况

   hadoop dfsadmin -safemode leave  离开安全模式

    hadoop dfsadmin -safemode enter  进入安全模式

时间： 2024-10-03 19:29:18

安装hadoop1.2.1(参考hadoop实战第二版)的相关文章

junit实战第二版（总结1）

背景最近就在看junit实战第二版,主要是基于junit4,但是现实中我们有些是基于junit3,如何平稳升级呢? junit3实现方式测试类必须继承于TestCase类,并且测试方法必须已test开头 junit4实现直接方法名加上@Test注解即可注意事项 junit 4.8版本以下只需下载junit的包即可,如果junit4.8以上则还需下载hamcrest-core-1.1.jar,不然会报如下错误java.lang.NoClassDefFoundError: org/hamcr

Python课本第2章习题参考答案（第二版）(Python绘制蟒蛇，中美汇率转换，等边三角形，叠加等边三角形，无角正方形，六角形，正方形螺线）

2.1 实例1的修改,采用eval(input(<提示内容>))替换现有输入部分,并使输出的温度值为整数. 2.2 汇率兑换程序.按照温度转换程序的设计思路,按照1美元=6人民币汇率编写一个美元和人民币的双向兑换程序. 2.3 实例2的修改.改造实例代码2.1,绘制一条彩色的蟒蛇,即在绘制Python蟒蛇的每个小段时,画笔的绘制颜色会发生变化. 提示:将画笔颜色控制函数放到蟒蛇绘制函数附近. 2.4 等边三角形的绘制.使用turtle库中的turtle.fd()函数和turtl

Hadoop实战安装

环境:centos 6.4 X64 192.168.2.20 Master 192.168.2.21 Hadoop1 192.168.2.22 Hadoop2 准备工作: 1.安装基本开发工具:(所有服务器) yum groupinstall "Development Tools" -y 2.设置IP和hostname映射关系 (所有服务器) vi /etc/hosts 修改内容如下 192.168.2.20 Master 192.168.2.21 Hadoop1 192.168.2

Hadoop实战 Hadoop Pipes运行C++程序问题解决

说明:我使用的是hadoop-1.2.1,开发环境是OpenSuSE12.3 x64. Hadoop安装在/usr/lib/hadoop下.并且我的hadoop的相关指令已经加入到了系统的path中. 下面四篇有我解决问题时,所主要参考的文档: 1.http://www.cnblogs.com/lanxuezaipiao/p/3648853.html 该博客指出64位的libhadooppipes.a和 libhadooputils.a这两个库应该由我们自己编译,官方提供的是32位的库. 2

Hadoop实战之三~ Hello World

前言本文介绍的是在Ubuntu下安装用三台PC安装完成Hadoop集群并运行好第一个Hello World的过程,软硬件信息如下: Ubuntu:12.04 LTS Master: 1.5G RAM,奔腾处理器. Slave1.Slave2:4G RAM,I3处理器. 开始 1 安装Ubuntu : http://cdimage.ubuntu.com/releases/12.04/release/,Ubuntu的安装过程网上有很多,这里不再赘述了,安装之前一定要对Linux的目录树和Mount

hbase安装配置（整合到hadoop）

hbase安装配置(整合到hadoop) 如果想详细了解hbase的安装:http://abloz.com/hbase/book.html 和官网http://hbase.apache.org/ 1. 快速单击安装在单机安装Hbase的方法.会引导你通过shell创建一个表,插入一行,然后删除它,最后停止Hbase.只要10分钟就可以完成以下的操作. 1.1下载解压最新版本选择一个 Apache 下载镜像:http://www.apache.org/dyn/closer.cgi/hbase

深入浅出Hadoop实战开发实例视频教程

Hadoop实例视频教程-深入浅出Hadoop实战开发Hadoop是什么,为什么要学习Hadoop?Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput

参考《利用Python进行数据分析(第二版)》高清中文PDF+高清英文PDF+源代码

第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas.NumPy.IPython和Jupyter,并增加大量实际案例,可以帮助高效解决一系列数据分析问题. 第2版中的主要更新了Python第三方发布版Anaconda和其他所需Python包的安装指引: 更新pandas库到2017年的新版: 新增一章关于更多高级pandas工具和一些使用提示:新增statsmodels和scikit-learn的简明使用介绍. 学习参考: <利用Python进行数据分析(第二版)>高清中文

Hadoop实战视频教程完整版完整的Hadoop大数据视频教程

分享一套迪伦老师的完整的Hadoop实战视频教程,教程从学习Hadoop需要的数据库.Java和Linux基础讲起,非常适合零基础的学员,课程最后结合了实战项目演练,理论结合实战,深入浅出,绝对是当前最为完整.实战的Hadoop教程. <Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦课程分类:大数据适合人群:初级课时数量:230课时用到技术:部署Hadoop集群涉及项目:京东商城.百度.阿里巴巴咨询QQ:1337192913(小公子)