Hadoop1.2.1 的 “Hello world!”

下图是大概步骤:

下面是详细步骤,但我的代码跟上面有点不一样,但都是一个道理:

第一个程序测试 wordcount

先创建目录

hadoop fs -mkdir /wc

hadoop fs -mkdir /wc/input

把要统计的文件放入目录

hadoop fs  -put  /opt/modules/hadoop-1.2.1 /conf/*.xml  /wc/input

运行程序

hadoop jar hadoop-examples-1.2.1.jar wordcount /wc/input /wc/output

然后可看到运行情况。

然后可通过浏览器查看相关信息

http://hadoop-master.dragon.org:50030的Running Jobs(运行完后看

Completed Jobs)

http://hadoop-master.dragon.org:50070的Browse the filesystem查看文件信息,当然也可通过命令查看,

如hadoop fs -text /wc/output/part-r-00000

下图是图解:

简单说下原理,就是把多个文件分别统计,然后排序并合在一起,然后再统计。

附:

时间: 2024-08-05 12:01:31

Hadoop1.2.1 的 “Hello world!”的相关文章

hadoop-1.2.1运行过程中遇到的问题

在hadoop-1.2.1中运行所遇到的问题: 2014-11-14   22:43:42  在服务器上运行hadoop-1.2.1中的datanode,出现了内存占用过大,导致ssh登陆出现如下问题: 1.# There is insufficient memory for the Java Runtime Environment to continue. 2./etc/bashrc: fork: retry: Resource temporarily unavailable 出现上述问题的原

Hadoop1.X 与 Hadoop2.X区别及改进

一:Haddop版本介绍 0.20.x版本最后演化成了现在的1.0.x版本 0.23.x版本最后演化成了现在的2.x版本 hadoop 1.0 指的是1.x(0.20.x),0.21,0.22 hadoop 2.0 指的是2.x,0.23.x CDH3,CDH4分别对应了hadoop1.0 hadoop2.0 二.Hadoop1.X与Hadoop2.X区别 1.HDFS的改进 1.1 Hadoop1.x时代的HDFS架构 在Hadoop1.x中的NameNode只可能有一个,虽然可以通过Seco

大话Hadoop1.0、Hadoop2.0与Yarn平台

2016年12月14日21:37:29 Author:张明阳 博文链接:http://blog.csdn.net/a2011480169/article/details/53647012 近来这几天一直在忙于Hbase的实验,也没有太静下心来沉淀自己,今天打算写一篇关于Hadoop1.0.Hadoop2.0与Yarn的博文,从整体上把握三者之间的联系,博客内容如有问题,欢迎留言指正!OK,进入本文正题-- 在开始接触Hadoop的时候,也许大家对于Hadoop是下面的一个概念:Hadoop由两部

Hadoop1.2.1插件编译

本文介绍了Hadoop 1.2.1插件的编译步骤及编译后插件的配置. 1. 将Haoop 1.2.1源文件hadoop-1.2.1.tar.gz解压到D:\hadoop-1.2.1 2. 将项目导入Eclipse 3. 将build-contrib.xml拷贝到项目下. 4. 修改build.xml 1). 指定build-contrib.xml路径 <import file="./build-contrib.xml"/> 2). 添加Hadoop相关包到classpath

Hadoop1.x目录结构及Eclipse导入Hadoop源码项目

这是解压hadoop后,hadoop-1.2.1目录 各目录结构及说明: Eclipse导入Hadoop源码项目: 注意:如果没有ant的包可以去网上下,不是hadoop里面的. 然后如果通过以上还报错的话,可以右键点击项目,然后如下图(配置**/*):

Hadoop1.2.1 配置文件详解

首先我们先回顾一下Hadoop的一些概念: Apache Hdoop 1.x 组成 NameNode(元数据服务器) Secondary NameNode(辅助元数据服务器) JobTracker(任务调度员) DataNodes(块存储) TaskTrackers(任务执行) HDFS文件系统 NameNoode:属于管理层,用于管理数据存储 SecondaryNameNode:也属于管理层,辅助NameNode进行管理 DataNode:属于应用层,用户进行数据的存储,被NameNode进行

Hadoop-1.x安装与配置

1.在安装Hadoop之前,需要先安装JDK和SSH. Hadoop采用Java语言开发,MapReduce的运行和Hadoop的编译都依赖于JDK.因此必须先安装JDK1.6或更高版本(在实际生产环境下一般采用JDK1.6,因为Hadoop的部分组件不支持JDK1.7及以上版本).Hadoop利用SSH来启动Slave机器上的守护进程,对于在单机上运行的伪分布式,Hadoop采用了与集群相同的处理方式.所以SSH也是必须安装的. JDK1.6的安装配置步骤: (1)从网上下载JDK1.6的安装

搭建hadoop1

1.安装JDK su grid sudo -i  passwd root sudo dpkg -l  sudo dpkg -l | grep wget cd /usr mkdir java tar -zxvf eclipse-SDK-4.2-linux-gtk.tar.gz cp ~/Desktop/jdk-6u24-linux-i586.bin /usr/java ./jdk-6u24-linux-i586.bin ln -s /usr/java/jdk-xxx /usr/jdk vi /et

分布式-ubuntu12.04上安装hadoop1.2.1

在hadoop1.2.1的安装说明中有说明要预先安装java,我安装了好多版本的java以及好多版本的hadoop,然后发现oracle-java7与hadoop1.2.1是可以匹配的. 一,安装具体步骤如下: 1. 安装java: sudo apt-get install oracle-java7-installer 2. 安装hadoop1.2.1: http://hadoop.apache.org/docs/r1.2.1/single_node_setup.html#Download 二,

Hadoop1.2.1 伪分布式安装

Hadoop1.2.1 单机模式安装 Hadoop组件依赖图(从下往上看) 安装步骤: 详细步骤: 设置ssh自动登录(如下图): 1.输入命令 [ssh-keygen -t rsa],然后一直按回车就可以了 2.然后切换目录到 ~ .ssh目录下执行命令[cp id_rsa.pub authorized_keys] 3.这样就完成了,然后测试 1) 输入命令[ssh localhost],然后输入[yes],就会登陆成功另外会看到原本的 .ssh目录变成了 ~ 目录 2) 输入命令[exit]