hadoop倒排索引

1.前言

学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒拍索引:

倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率)等来给你返回结果。这个过程中,倒排索引就起到很关键的作用。

2.分析设计

倒排索引涉及几个过程:Map过程,Combine过程,Reduce过程。下面我们来分析以上的过程。

2.1Map过程

当你把需要处理的文档上传到hdfs时,首先默认的TextInputFormat类对输入的文件进行处理,得到文件中每一行的偏移量和这一行内容的键值对<偏移量,内容>做为map的输入。在改写map函数的时候,我们就需要考虑,怎么设计key和value的值来适合MapReduce框架,从而得到正确的结果。由于我们要得到单词,所属的文档URL,词频,而<key,value>只有两个值,那么就必须得合并其中得两个信息了。这里我们设计key=单词+URL,value=词频。即map得输出为<单词+URL,词频>,之所以将单词+URL做为key,时利用MapReduce框架自带得Map端进行排序。

下面举个简单得例子:

图1 map过程 输入/输出

2.2 Combine过程

combine过程将key值相同得value值累加,得到一个单词在文档上得词频。但是为了把相同得key交给同一个reduce处理,我们需要设计为key=单词,value=URL+词频

图2 Combin过程 输入/输出

2.3Reduce过程

reduce过程其实就是一个合并的过程了,只需将相同的key值的value值合并成倒排索引需要的格式即可。

图3 reduce过程 输入/输出

3.源代码

package reverseIndex;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class InvertedIndex {

    public static class InvertedIndexMapper extends Mapper<Object, Text, Text, Text>{
        private Text keyInfo=new Text();
        private Text valueInfo=new Text();
        private FileSplit split;

        public void map(Object key,Text value,Context context)throws IOException,InterruptedException {
            //获得<key,value>对所属的对象
            split=(FileSplit)context.getInputSplit();
            StringTokenizer itr=new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                //key值有单词和url组成,如"mapreduce:1.txt"
                keyInfo.set(itr.nextToken()+":"+split.getPath().toString());
                valueInfo.set("1");
                context.write(keyInfo, valueInfo);
            }

        }
    }
    public static class InvertedIndexCombiner extends Reducer<Text, Text, Text, Text>{
            private Text info=new Text();
            public void reduce(Text key,Iterable<Text> values,Context context)throws IOException,InterruptedException {
                //统计词频
                int sum=0;
                for (Text value:values) {
                    sum+=Integer.parseInt(value.toString());
                }

                int splitIndex=key.toString().indexOf(":");
                //重新设置value值由url和词频组成
                info.set(key.toString().substring(splitIndex+1)+":"+sum);
                //重新设置key值为单词
                key.set(key.toString().substring(0,splitIndex));
                context.write(key, info);
            }
        }
    public static class InvertedIndexReduce extends Reducer<Text, Text, Text, Text> {
            private Text result=new Text();
            public void reduce(Text key,Iterable<Text>values,Context context) throws IOException,InterruptedException{
                //生成文档列表
                String fileList=new String();
                for (Text value:values) {
                    fileList+=value.toString()+";";
                }
                result.set(fileList);
                context.write(key, result);
            }
        }

    public static void main(String[] args) throws Exception {
        // TODO Auto-generated method stub
        Configuration conf=new Configuration();
        String[] otherArgs=new GenericOptionsParser(conf,args).getRemainingArgs();
        if (otherArgs.length!=2) {
            System.err.println("Usage:invertedindex<in><out>");
            System.exit(2);
        }
        Job job=new Job(conf,"InvertedIndex");
        job.setJarByClass(InvertedIndex.class);

        job.setMapperClass(InvertedIndexMapper.class);

        job.setMapOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        job.setCombinerClass(InvertedIndexCombiner.class);
        job.setReducerClass(InvertedIndexReduce.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        System.exit(job.waitForCompletion(true)?0:1);

    }

}
时间: 2024-10-25 18:51:47

hadoop倒排索引的相关文章

hadoop 倒排索引

Hadoop倒排索引 1)file1: MapReduce is simple 2)file2: MapReduce is powerful is simple 3)file3: Hello MapReduce bye MapReduce 样例输出如下所示. MapReduce      file1.txt:1;file2.txt:1;file3.txt:2; is         file1.txt:1;file2.txt:2; simple           file1.txt:1;fil

hadoop 倒排索引-分布式作业二

import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.

Hadoop学习笔记(8) ——实战 做个倒排索引

Hadoop学习笔记(8) ——实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如下: 这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数.现在我们假定输入的是以下的文件清单: T1 : hello world hello china T2 : hello hadoop T3 : bye world bye hadoop bye bye 输

Hadoop之倒排索引

前言: 从IT跨度到DT,如今的数据每天都在海量的增长.面对如此巨大的数据,如何能让搜索引擎更好的工作呢?本文作为Hadoop系列的第二篇,将介绍分布式情况下搜索引擎的基础实现,即“倒排索引”. 1.问题描述 将所有不同文件里面的关键词进行存储,并实现快速检索.下面假设有3个文件的数据如下: file1.txt:MapReduce is simple file2.txt:mapReduce is powerful is simple file3.txt:Hello MapReduce bye M

Hadoop实战-MapReduce之倒排索引(八)

倒排索引 (就是key和Value对调的显示结果) 一.需求:下面是用户播放音乐记录,统计歌曲被哪些用户播放过 tom        LittleApple jack       YesterdayOnceMore Rose       MyHeartWillGoOn jack       LittleApple John       MyHeartWillGoOn kissinger  LittleApple kissinger  YesterdayOnceMore 二.最终的效果 Littl

Hadoop MapReduce编程 API入门系列之倒排索引(二十四)

不多说,直接上代码. 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2016-12-12 21:54:05,166 WARN [org.apache.hadoop.mapreduce.JobSubmitter] - Hadoop command-line option

【Hadoop基础教程】9、Hadoop之倒排索引

开发环境 硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45.hadoop-1.2.1 1.倒排索引 倒排索引是文档检索系统中最常用的数据结构,被广泛用于全文搜索引擎.它主要是用来存储某个单词(或词组)在一个文档或一组文档的存储位置的映射,即提供了一种根据内容来查找文档的方式.由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(根据关键字来查找文档),因而称为倒排索引(Inverted Index).通常情况

hadoop学习笔记之倒排索引

开发工具:eclipse 目标:对下面文档phone_numbers进行倒排索引: 13599999999 1008613899999999 12013944444444 1380013800013722222222 1380013800018800000000 12013722222222 1008618944444444 10086 代码: 1 import java.io.IOException; 2 import org.apache.hadoop.conf.Configured; 3

Hadoop环境搭建及实现倒排索引

目 录 1.应用介绍 3 1.1实验环境介绍 3 1.2应用背景介绍 3 1.3应用的意义与价值 4 2.数据及存储 5 2.1数据来源及数据量 5 2.2数据存储解决方案 5 3.分析处理架构 5 3.1架构设计和处理方法 5 3.2核心处理算法代码 7 4.系统实现 9 5.总结 27 1.应用介绍 1.1实验环境介绍 本实验是在hadoop伪分布式处理架构下完成的.我用自己的笔记本在ubuntu14.04操作系统下自己搭建了hadoop2.7.1架构,并配置了伪分布式模式进行数据的处理.