parallel语句可以附加到Pig Latin中任一个关系操作符后面,然后它会控制reduce阶段的并行,因此只有对与可以触发reduce过程的操作符才有意义。
可以触发reduce过程的操作符有:group、order、distinct、join、cogroup、cross
设置parallel的方法:
1)在操作符后面
data = load ‘data‘; grpd = group data by $0 parallel 10; sorted = order data by $0 parallel 2;
2)set default_parallel n
parallel的数值设置多少是合理的??
parallel只能控制reduce过程的并行,对与map过程的控制,可以通过用户自定义的加载函数实现,重写自己的InputFormat。
时间: 2024-11-02 23:30:46