hadoop-1.x的运行实例

我的环境是hadoop-0.20.2,eclipse：SDK-3.3.2,

源数据为：

Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84
Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84
Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84
Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84
Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84
Apr 23 11:49:54 hostapd: wlan0: STA 14:7d:c5:9e:fb:84

想要获取的数据是：

Apr 23 14:7d:c5:9e:fb:84
Apr 23 14:7d:c5:9e:fb:84
Apr 23 14:7d:c5:9e:fb:84
Apr 23 14:7d:c5:9e:fb:84
Apr 23 14:7d:c5:9e:fb:84
Apr 23 14:7d:c5:9e:fb:84

运行时输入的参数是：
hdfs的输入和输出目录：即 hdfs://cMaster:/user/joe/in hdfs://cMaster:/user/joe/out

源代码：

package hadoop;

import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.io.*;
import org.apache.hadoop.util.*;
public class test extends Configured implements Tool{
    enum Counter{
        LINESKIP,
    }
    public static class Map extends Mapper<LongWritable,Text,NullWritable,Text>{
        public void map(LongWritable key,Text value,Context context)throws IOException,InterruptedException{
            String line=value.toString();
            try{
                String [] lineSplit=line.split(" ");
                String month=lineSplit[0];
                String time=lineSplit[1];
                String mac=lineSplit[6];
                Text out=new Text(month+‘ ‘+time+‘ ‘+mac);
                context.write(NullWritable.get(),out);
            }catch(java.lang.ArrayIndexOutOfBoundsException e){
                context.getCounter(Counter.LINESKIP).increment(1);
                return;
            }
        }
    }
    public int run(String[] args)throws Exception{
        Configuration conf=getConf();
        Job job=new Job(conf,"test");
        job.setJarByClass(test.class);
        FileInputFormat.addInputPath(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        job.setMapperClass(Map.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        job.setOutputKeyClass(NullWritable.class);
        job.waitForCompletion(true);
        return job.isSuccessful()?0:1;
    }
    public static void main(String[] args)throws Exception{
        int res=ToolRunner.run(new Configuration(),new test(),args);
        System.exit(res);
    }
}

时间： 2024-11-06 11:03:23

hadoop-1.x的运行实例的相关文章

3 weekend110的hadoop中的RPC框架实现机制 + hadoop中的RPC应用实例demo

hadoop中的RPC框架实现机制 RPC是Remotr Process Call, 进程间的远程过程调用,不是在一个jvm里. 即,Controller拿不到Service的实例对象. hadoop中的RPC应用实例demo 在windows是调用端,在linux里是服务端. 在这里,需要LoginServiceinterface.java 停止出错误了,很明显. 这是个很好的思考题?

利用hadoop自带程序运行wordcount

1.启动hadoop守护进程 bin/hadoop start-all.sh 2.在hadoop的bin目录下建立一个input文件夹 mkdire input 3.进入input目录之后,在input目录下新建两个文本文件,并想其写入内容 echo "hello excuse me fuck thank you">test1.txt echo "hello how do you do thank you">test2.txt 4.进入hadoop的bi

React 系列文章(1)： npm 手动搭建React 运行实例 (新手必看)

摘要刚接触React 开发, 在摸索中构建react 运行环境,总会遇到各种坑:本文,将用最短时间解决webpack+react 环境搭建问题. 1.如果你还没有React基础看这里. 2.如果不知道webpack是啥?请看这里. 3.如果你还没有装npm 看这里. 目录一.webpack+react 运行实例. 二.webpack 运行环境配置分析. 三.如何手动搭建一个webpack+react 运行环境. 一.webpack+react 运行实例 1.实例代码源代码下载地址:

win应用只允许单个实例运行，并将已运行实例窗口置顶

关键词:windows,c++,桌面应用,单个实例,窗口置顶目标:1.判断本程序是否已有一个实例在运行.2.若有,则激活已在运行的实例(将其窗口置顶),并退出当前运行. 1.使用semaphore来检测是否已有实例在运行(也可以用mutex,文件等其他方式) HANDLE g_hSingleSema = ::CreateSemaphore(NULL, 1, 1, _T("single_myapp_sema")); if (g_hSingleSema && ERROR_

Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount（1）

安装ssh Hadoop是采用ssh进行通信的,此时我们要设置密码为空,即不需要密码登陆,这样免去每次通信时都输入秘密,安装如下: 输入“Y”进行安装并等待自动安装完成. 安装ssh完成后启动服务以下命令验证服务是否正常启动: 可以看到ssh正常启动: 设置免密码登录,生成私钥和公钥: 在/root/.ssh中生成两个文件:id_rsa和id_rsa.pub,id_rsa为私钥,id_rsa.pub为公钥,我们将公钥id_rsa.pub追加到 authorized_keys中,因为author

Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例（1）

第四步:配置Hadoop伪分布模式并运行Wordcount示例伪分布模式主要涉及一下的配置信息: 修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号: 修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication; 修改Hadoop的MapReduce的配置文件mapred-site.xml,主要是配置JobTracker的地址和端口: 在具体操作前我们先在Hadoop目录下创建几个文件夹: 下面开始构建具体的伪分布式

如何修改Docker已运行实例的端口映射

如何修改Docker已运行实例的端口映射 Docker的端口映射,往往出现在两个阶段需要处理: 1.是在docker启动前就已经确定好,哪个docker实例映射哪个端口(往往这个情况比较,需要提前做规划). 2.在docker运行过程中,需要增加端口映射的(往往这个情况比较多,凡事先运行起来,遇到问题再解决,哈哈) 那我们这一篇文章要解决已经创建的容器,如何修改端口 1)确定要修改端口的容器 dockder ps 记下容器id 2)停止运行的容器 docker stop 容器ID 3)找到容器的

hadoop2.5.2 运行实例 /home/hadoop/tmp due to 权限不够

[hadoop@master ~]$ [hadoop@master ~]$ hadoop jar /opt/hadoop-2.5.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar pi 100 100 Error creating temp dir in hadoop.tmp.dir /home/hadoop/tmp due to 权限不够 [hadoop@master ~]$ 解决方法: sudo chmod a+

Mahout分布式运行实例：基于矩阵分解的协同过滤评分系统

Apr 08, 2014 Categories in tutorial tagged with Mahout hadoop 协同过滤 Joe Jiang 前言:之前配置Mahout时测试过一个简单的推荐例子,当时是在Eclipse上运行的,由于集成插件的缘故,所以一切进行的都比较顺利,唯一不足的是那是单机运行的,没有急于分布式系统处理.所以基于测试分布式处理环境的目的,下午找了一个实例来运行,推荐系统原型是一个电影评分的系统. 一.问题描述对于协同过滤(Collaborative Filt

Summingbird（Storm + Hadoop）的demo运行

前言为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园友且听笔者一一道来,大体可以将summingbird理解为Storm + Hadoop. 一.大数据处理快速预览大数据时代的来临,将大数据处理分为了批量处理与实时处理两个方向,批量处理的优势在于容错性好,因为数据时先存在本地或者是分布式的进行存储,可以重复对数据进行处理,劣势在于速度慢,要等到数据全部