Hadoop Mapreducer两文件数据求交拼接

两份数据，若干行，若干列。均有相同一列，作为key。连接，完整显示两份数据。

data1.txt

zhangsan man 25 teacher
lisi man 28 police
wangwu man 26 student
guoxiao man 26 salesman
wangmeng women 26 student
huangshi women 28 programmer
zhouchu man 25 manager
yangchao man 27 doctor

data2.txt

zhanghuan liaoning huludao
huangshi liaoning unknown
xutao henan luoyang
guoxiao shanxi datong
zhangchao yunnan qujing
zhangsan known known
wangwu henan luoyang
zhouchu hubei enshi
luopeng sichuan dazho

第一列为姓名，在每份数据里都是唯一的，为唯一键。

结果如下所示

huangshi women 28 programmer liaoning unknown
guoxiao man 26 salesman shanxi datong
wangwu man 26 student henan luoyang
zhouchu man 25 manager hubei enshi

Mapper

#!/bin/bash
function get_data_source()
{
        #local mapreduce_map_input_file=data2asdf.txt

        echo "${mapreduce_map_input_file}" | awk ‘{
                if ($1 ~ "data1")
                {
                        print "data1"
                }
                else if ($1 ~ "data2")
                {
                        print "data2"
                }
        }‘
        return 0
}

function filter()
{
        local data_source=`get_data_source`

        if [ "${data_source}" == "data1" ]
        then
                awk ‘BEGIN{
                        OFS = "\t"
                }{
                        print $0 ,1
                }END{
                }‘
        elif [ "${data_source}" == "data2" ]
        then
                awk ‘BEGIN{
                        OFS = "\t"
                }{
                        print $0, 2
                }END{
                }‘
        fi
}
filter

Reduce

#!/bin/bash
awk ‘BEGIN{
        OFS = "\t"
}{
        if($NF == 1)
        {
                print substr($0,1,length($0)-1) > "1.txt"
        }
        if($NF == 2)
        {
                print substr($0,1,length($0)-1) > "2.txt"
        }
}END{
}‘

awk ‘BEGIN{
        FS = "\t"
        OFS = "\t"
}{
        if(ARGIND == 1)
        {
                dict[$1] = $0
        }
        else if(ARGIND == 2)
        {
                if($1 in dict)
                {
                        print dict[$1], $2, $3
                }
        }
}END{
}‘ 1.txt 2.txt

总结：

streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。我们利用mapreducer_map_input_file这一环境变量，可以获得输入文件路径，这样可以区分Map读取的数据来自哪一个文件。根据数据来源文件的不同，分别为Map的输出数据加后缀标识符。这里有两个文件，加上1,2用于区分。

Reducer的输入数据，每一行最后都有后缀1,2。在每一个Reducer任务里面，根据后缀不同在当前工作目录下面，生成两个临时文件。这样对这两个文件，进行单机版的相同处理即可得到我们需要的交集。

原文地址：https://www.cnblogs.com/zwcoding/p/9269767.html

时间： 2024-10-31 00:36:40

Hadoop Mapreducer两文件数据求交拼接

Hadoop Mapreducer两文件数据求交拼接的相关文章

ray与triangle/quad求交二三事

Hadoop中的CRC数据校验文件

拼接上传文件数据

Java学习-013-文本文件读取实例源代码（两种数据返回格式）

【大数据系列】hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes

Hadoop对小文件的解决方案

第十五讲.数据解析(XML与JSON两种数据解析)

Hadoop学习笔记之三数据流向

从Hadoop URL中读取数据