Hadoop学习笔记—7.计数器与自定义计数器

一、Hadoop中的计数器

计数器：计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器，用来记录数据或者进度的变化情况，它比日志更便利进行分析。

　　例如，我们有一个文件，其中包含如下内容：

hello you
hello me

　　它被WordCount程序执行后显示如下日志：

　　在上图所示中，计数器有19个，分为四个组：File Output Format Counters、FileSystemCounters、File Input Format Counters和Map-Reduce Framkework。

　　分组File Input Format Counters包括一个计数器Bytes Read，表示job执行结束后输出文件的内容包括19个字节(空格、换行都是字符)，如下所示。

hello 2
me 1
you 1

　　分组File Output Format Counters包括一个计数器Bytes Written，表示job执行时读取的文件内容包括19个字节(空格、换行都是字符)，如下所示。

hello you
hello me

　　关于以上这段计数器日志中详细的说明请见下面的注释：

 1    Counters: 19 // Counter表示计数器，19表示有19个计数器（下面一共4计数器组）
 2    File Output Format Counters // 文件输出格式化计数器组
 3      Bytes Written=19 // reduce输出到hdfs的字节数，一共19个字节
 4    FileSystemCounters// 文件系统计数器组
 5      FILE_BYTES_READ=481
 6      HDFS_BYTES_READ=38
 7      FILE_BYTES_WRITTEN=81316
 8      HDFS_BYTES_WRITTEN=19
 9    File Input Format Counters // 文件输入格式化计数器组
10      Bytes Read=19 // map从hdfs读取的字节数
11    Map-Reduce Framework // MapReduce框架
12      Map output materialized bytes=49
13      Map input records=2 // map读入的记录行数，读取两行记录,”hello you”,”hello me”
14      Reduce shuffle bytes=0 // 规约分区的字节数
15      Spilled Records=8
16      Map output bytes=35
17      Total committed heap usage (bytes)=266469376
18      SPLIT_RAW_BYTES=105
19      Combine input records=0 // 合并输入的记录数
20      Reduce input records=4 // reduce从map端接收的记录行数
21      Reduce input groups=3  // reduce函数接收的key数量，即归并后的k2数量
22      Combine output records=0 // 合并输出的记录数
23      Reduce output records=3 // reduce输出的记录行数。<helllo,{1,1}>,<you,{1}>,<me,{1}>
24      Map output records=4 // map输出的记录行数，输出4行记录

二、用户自定义计数器

　　以上是在Hadoop中系统内置的标准计数器。除此之外，由于不同的场景有不同的计数器应用需求，因此我们也可以自己定义计数器使用。

2.1 敏感词记录-准备

　　现在假设我们需要对文件中的敏感词做一个统计，即对敏感词在文件中出现的次数做一个记录。这里，我们还是以下面这个文件为例：

Hello World!
Hello Hadoop!

　　文本内容很简单，这里我们指定Hello是一个敏感词，显而易见这里出现了两次Hello，即两次敏感词需要记录下来。

2.2 敏感词记录-程序

　　在WordCount程序的基础之上，改写Mapper类中的map方法，统计Hello出现的次数，如下代码所示：

        public static class MyMapper extends
            Mapper<LongWritable, Text, Text, LongWritable> {
        /*
         * @param KEYIN →k1 表示每一行的起始位置（偏移量offset）
         *
         * @param VALUEIN →v1 表示每一行的文本内容
         *
         * @param KEYOUT →k2 表示每一行中的每个单词
         *
         * @param VALUEOUT →v2表示每一行中的每个单词的出现次数，固定值为1
         */
        protected void map(LongWritable key, Text value,
                Mapper<LongWritable, Text, Text, LongWritable>.Context context)
                throws java.io.IOException, InterruptedException {
            Counter sensitiveCounter = context.getCounter("Sensitive Words:", "Hello");

            String line = value.toString();
            // 这里假定Hello是一个敏感词
            if(line.contains("Hello")){
                sensitiveCounter.increment(1L);
            }
            String[] spilted = line.split(" ");
            for (String word : spilted) {
                context.write(new Text(word), new LongWritable(1L));
            }
        };
    }

　　我们首先通过Mapper.Context类直接获得计数器对象。这里有两个形参，第一个是计数器组的名称，第二是计数器的名称。

　　然后通过String类的contains方法判断是否存在Hello敏感词。如果有，进入条件判断语句块，调用计数器对象的increment方法。

2.3 敏感词记录-结果

　　通过查看控制台日志信息，可以看到如下图所示的信息：

　　我们可以清楚地看到计数器由原来的19个变为20个，多出来的这个计数器正是我们自定义的敏感词计数器，由于文件中只有两个Hello，因此这里显示Hello=2。

参考资料

（1）Suddenly，《Hadoop日记17-计数器、Map规约与分区》：http://www.cnblogs.com/sunddenly/p/4009568.html

（2）吴超，《Hadoop中的计数器》：http://www.superwu.cn/2013/08/14/460

（3）dajuezhao，《Hadoop中自定义计数器》：http://blog.csdn.net/dajuezhao/article/details/5788705

（4）万川梅、谢正兰，《Hadoop应用开发实战详解（修订版）》：http://item.jd.com/11508248.html

作者：周旭龙

出处：http://edisonchou.cnblogs.com/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接。

时间： 2024-08-07 17:01:00

Hadoop学习笔记—7.计数器与自定义计数器的相关文章

Hadoop学习笔记—8.Combiner与自定义Combiner

一.Combiner的出现背景 1.1 回顾Map阶段五大步凑在第四篇博文<初始MapReduce>中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.5是一个可选步凑,它就是我们今天需要了解的 Map规约阶段.现在,我们再来看看前一篇博文<计数器与自定义计数器>中的第一张关于计数器的图: 我们可以发现,其中有两个计数器:Combine output records和Combine input records,他们的计数都是

Hadoop学习笔记—9.Partitioner与自定义Partitioner

一.初步探索Partitioner 1.1 再次回顾Map阶段五大步凑在第四篇博文<初始MapReduce>中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.3就是一个分区操作.通过前面的学习我们知道Mapper最终处理的键值对<key, value>,是需要送到Reducer去合并的,合并的时候,有相同key的键/值对会送到同一个Reducer节点中进行归并.哪个key到哪个Reducer的分配过程,是由Partition

Hadoop学习笔记系列文章导游【持续更新中...】

一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急.但数据增长的速度往往比cpu和内存性能增长的速度还要快得多.要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容量的存储设备,价格往往也是天文数字.成本和IT能力成为了海量数据分析的主要瓶颈. Hadoop这个开源产品的出现,打破

Hadoop学习笔记系列文章导航

Hadoop学习笔记(7) ——高级编程

Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成<key, value>. 2.映射(map):根据输入的<key, value>进生处理, 3.合并(combiner):合并中间相两同的key值. 4.分区(Partition):将<key, value>分成N分,分别送到下一环节. 5.化简(Reduce):将中间结

hadoop学习笔记(二)

hadoop学习笔记(二) 我的个人博客站点地址:孙星的个人博客主页后续的学习笔记:hadoop学习笔记 hadoop单节点的搭建下载hadoop: wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz tar -zxvf hadoop-2.7.1.tar.gz 解压配置免密码登陆: //生成秘钥 ssh-keygen -t rsa //一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私

Hadoop学习笔记(6) ——重新认识Hadoop

Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析. 所以这里主要来研究一下MapReduce. 这样,我们先来看一下MapReduce的思想来源: alert("I'd like some Spaghetti!

Hadoop学习笔记(8) ——实战做个倒排索引

Hadoop学习笔记(8) ——实战做个倒排索引倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如下: 这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数.现在我们假定输入的是以下的文件清单: T1 : hello world hello china T2 : hello hadoop T3 : bye world bye hadoop bye bye 输

Hadoop学习笔记_2_Hadoop源起与体系概述[续]

Hadoop源起与体系概述 Hadoop的源起--Lucene Lucene是Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎对于大数据的

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclipse方便. 下载进入官网:http://eclipse.org/downloads/. 找到相应的版本进行下载,我这里用的是eclipse-SDK-3.7.1-linux-gtk版本. 解压下载下来一般是tar.gz文件,运行: $tar -zxvf eclipse-SDK-3.7.1-linu