Hadoop实战-MapReduce之倒排索引(八)

倒排索引 (就是key和Value对调的显示结果)

一、需求：下面是用户播放音乐记录，统计歌曲被哪些用户播放过

tom LittleApple

jack YesterdayOnceMore

Rose MyHeartWillGoOn

jack LittleApple

John MyHeartWillGoOn

kissinger LittleApple

kissinger YesterdayOnceMore

二、最终的效果

LittleApple tom|jack|kissinger

YesterdayOnceMore jack | kissinger

MyHeartWillGoOn Rose | John

三、MapReduce代码

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class Music {
    public static class MusicMap extends Mapper<Object, Text, Text, Text> {
        //private Text userName = new Text();
        //private Text musicName = new Text();

        @Override
        public void map(Object key, Text value, Context context)
                throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                //tom,LittleApple
                //jack,YesterdayOnceMore
                String content = itr.nextToken();
                String[] splits = content.split(",");
                String name = splits[0];
                String music = splits[1];
                context.write(new Text(music), new Text(name));
            }
        }
    }

    public static class MusicReduce extends Reducer<Text, Text, Text, Text> {
        private Text userNames = new Text();

        @Override
        public void reduce(Text key, Iterable<Text> values, Context context)
                throws IOException, InterruptedException {
            userNames.set("");
            StringBuffer result = new StringBuffer();
            int i = 0;
            for (Text tempText : values) {
                result.append("value" + i + ":" + tempText.toString()+"\t");
                i++;
            }
            userNames.set(result.toString());
            context.write(key, userNames);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args)
                .getRemainingArgs();
        if (otherArgs.length != 2) {
            System.err.println("Usage: MinMaxCountDriver <in> <out>");
            System.exit(2);
        }
        Job job = new Job(conf, "StackOverflow Comment Date Min Max Count");
        job.setJarByClass(Music.class);
        job.setMapperClass(MusicMap.class);
        //job.setCombinerClass(MusicReduce.class);
        job.setReducerClass(MusicReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

}

时间： 2024-12-23 18:59:50

Hadoop实战-MapReduce之倒排索引(八)的相关文章

Hadoop实战-MapReduce之max、min、avg统计(六)

1.数据准备: Mike,35 Steven,40 Ken,28 Cindy,32 2.预期结果 Max 40 Min 28 Avg 33 3.MapReduce代码如下 import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.

Hadoop实战-MapReduce之WordCount(五)

环境介绍: 主服务器ip:192.168.80.128(master) NameNode SecondaryNameNode ResourceManager 从服务器ip:192.168.80.129(slave1) DataNode NodeManager 从服务器ip: 192.168.80.130(slave2) DataNode NodeManager 1.文件准备 1)在HDFS上创建文件夹 hadoop fs -mkdir /user/joe/wordcount/input

Hadoop实战-MapReduce之分组(group-by)统计(七)

1.数据准备使用MapReduce计算age.txt中年龄最大.最小.均值name,min,max,countMike,35,20,1Mike,5,15,2Mike,20,13,1Steven,40,20,10Ken,28,68,1Ken,14,198,10Cindy,32,31,100 2.预期结果Mike 5 20 4Steven,40,20,10Ken 14 198 11Cindy,32,31,100 3.需要加入自定义输出类型MinMaxCountTuple import java

Hadoop学习笔记(8) ——实战做个倒排索引

Hadoop学习笔记(8) ——实战做个倒排索引倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如下: 这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数.现在我们假定输入的是以下的文件清单: T1 : hello world hello china T2 : hello hadoop T3 : bye world bye hadoop bye bye 输

升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)

Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序

Hadoop实战视频教程完整版完整的Hadoop大数据视频教程

分享一套迪伦老师的完整的Hadoop实战视频教程,教程从学习Hadoop需要的数据库.Java和Linux基础讲起,非常适合零基础的学员,课程最后结合了实战项目演练,理论结合实战,深入浅出,绝对是当前最为完整.实战的Hadoop教程. <Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦课程分类:大数据适合人群:初级课时数量:230课时用到技术:部署Hadoop集群涉及项目:京东商城.百度.阿里巴巴咨询QQ:1337192913(小公子)

Hadoop之MapReduce程序应用三

摘要:MapReduce程序进行数据去重. 关键词:MapReduce 数据去重数据源:人工构造日志数据集log-file1.txt和log-file2.txt. log-file1.txt内容 2014-1-1 wangluqing 2014-1-2 root 2014-1-3 root 2014-1-4 wangluqing 2014-1-5 root 2014-1-6 wangluqing log-file2.txt内容 2014-1-1 root 2014-

Hadoop之MapReduce程序分析

摘要:Hadoop之MapReduce程序包括三个部分:Mapper,Reducer和作业执行.本文介绍和分析MapReduce程序三部分结构. 关键词:MapReduce Mapper Reducer 作业执行 MapReduce程序包括三个部分,分别是Mapper,Reducer和作业执行. Mapper 一个类要充当Mapper需要继承MapReduceBase并实现Mapper接口. Mapper接口负责数据处理阶段.它采用形式为Mapper<K1,V1,K2,V2>的Jav

Hadoop之MapReduce程序应用一

摘要:MapReduce程序处理专利数据集. 关键词:MapReduce程序专利数据集数据源:专利引用数据集cite75_99.txt.(该数据集可以从网址http://www.nber.org/patents/下载) 问题描述: 读取专利引用数据集并对它进行倒排.对于每一个专利,找到那些引用它的专利并进行合并.top5输出结果如下: 1 3964859, 4647229 10000