Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job

从Physical Plan到Map-Reduce Plan

注：因为我们重点关注的是Pig On Spark针对RDD的执行计划，所以Pig物理执行计划之后的后端参考意义不大，这些部分主要分析流程，忽略实现细节。

入口类MRCompiler，MRCompilier按照拓扑顺序遍历物理执行计划中的节点，将其转换为MROperator，每个MROperator都代表一个map-reduce
job，整个完整的计划存储在MROperPlan类中。其中针对Load和Store操作会做以下特殊处理：

Store必须是叶子节点，否则抛出异常
Load新建一MROperator，加入到MROperPlan中。

以下是MROperPlan示意图：

从Map-Reduce Plan到Hadoop Job

JobControlCompiler将Map-Reduce Plan编译成Hadoop Job。

入口方法是：

public JobControl compile(MROperPlan plan, String grpName) throwsJobCreationException

compile方法针对每个MROperator又会调用getJob方法，生成Hadoop Job:

private Job getJob(MROperPlan plan, MapReduceOper mro, Configuration config,PigContext pigContext) throws JobCreationException。

Pig实现的Mapper&Reducer继承结构如下：

其中：

XXXWithPartitionIndex用于SkewedJoin。
XXXWithComparator用于需要排序的udf函数。
XXXCounter给数据计数，用于Rank操作

Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job

时间： 2024-12-21 06:31:17

Pig系统分析(6)-从Physical Plan到MR Plan再到Hadoop Job的相关文章

Pig系统分析(5)-从Logical Plan到Physical Plan

Physical Plan生成过程优化后的逻辑运行计划被LogToPhyTranslationVisitor处理,生成物理运行计划. 这是一个经典的Vistor设计模式应用场景. 当中,LogToPhyTranslationVisitor的visit()为入口方法,通过DependencyOrderWalker遍历处理逻辑运行计划中的每个LogicalRelationalOperator.DependencyOrderWalker依照依赖顺序遍历DAG中节点,保证当且仅当节点的全部前驱都被訪问

Pig系统分析(7)-Pig实用工具类

Explain Explain是Pig提供的调试工具,使用explain可以输出Pig Lation的执行计划.值得一提的是,explain支持-dot选项,将执行计划以DOT格式输出, (DOT是一种图形描述语言,请参考http://zh.wikipedia.org/zh/DOT%E8%AF%AD%E8%A8%80) 代码实现详见org.apache.pig.impl.plan.DotPlanDumper,这部分实现为我们设计执行计划可视化提供了参考. 下图部分截取了使用Graphviz打开物

Pig系统分析(8)-Pig可扩展性

本文是Pig系统分析系列中的最后一篇了,主要讨论怎样扩展Pig功能.不仅介绍Pig本身提供的UDFs扩展机制,还从架构上探讨Pig扩展可能性. 补充说明:前些天同事发现twitter推动的Pig On Spark项目:Spork,准备研究下. UDFs 通过UDFs(用户自己定义函数),能够自己定义数据处理方法,扩展Pig功能.实际上,UDFS除了使用之前须要register/define外.和内置函数没什么不同. 主要的EvalFunc 以内置的ABS函数为例: public class AB

Pig系统分析(7)-Pig有用工具类

Explain Explain是Pig提供的调试工具,使用explain能够输出Pig Lation的运行计划. 值得一提的是,explain支持-dot选项,将运行计划以DOT格式输出, (DOT是一种图形描写叙述语言,请參考http://zh.wikipedia.org/zh/DOT%E8%AF%AD%E8%A8%80) 代码实现详见org.apache.pig.impl.plan.DotPlanDumper,这部分实现为我们设计运行计划可视化提供了參考. 下图部分截取了使用Graphviz

第六篇：Spark SQL Catalyst源码分析之Physical Plan

/** Spark SQL源码分析系列文章*/ 前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optimizer,最后要介绍一下Catalyst里最后的一个Plan了,即Physical Plan.物理计划是Spark SQL执行Spark job的前置,也是最后一道计划. 如图: 一.SparkPlanner 话接上回,Optimizer接受输入的Analyzed Logical Plan后,会有S

Spark SQL Catalyst源码分析之Physical Plan

前面几篇文章主要介绍的是spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optimizer,最后要介绍一下Catalyst里最后的一个Plan了,即Physical Plan.物理计划是Spark SQL执行Spark job的前置,也是最后一道计划. 如图: 一.SparkPlanner 话接上回,Optimizer接受输入的Analyzed Logical Plan后,会有SparkPlanner来对Optimized L

pig 调试（explain&illerstrate）

grunt> cat t.txt kw1 2 kw3 1 kw2 4 kw1 5 kw2 2 cat test.pig A = LOAD '/user/input/t.txt' as (k:chararray,c:int); B = group A BY k; C = foreach B generate group,SUM(A.c); -- DUMP C; store C into 'test.output'; $ pig -e 'illustrate -script test.pig' 20

吴超老师课程--Pig的介绍和安装

1.Pig是基于hadoop的一个数据处理的框架. MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行. 2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题.一步一步来的,跟SQL不一样,SQL一步就得到答案, 3.Pig基本数据类型:int.long.float.double.chararry.bytearray 复合数据类型:Map.Tuple.Bag Bag的类型如{('age',31),('name',

Oracle SQL explain/execution Plan

From http://blog.csdn.net/wujiandao/article/details/6621073 1. Four ways to get execution plan(anytime you want, for specified sql) ? Execute the SQL statement EXPLAIN PLAN, and then query the table where the output was written. ? Query a dynamic per