The First Pig Task

                     The First Pig Program

环境:

  Hadoop-1.1.2

  pig-0.11.1

  linux系统为CentOS6.4

  jdk1.6

在伪分布式下模式下运行

启动:pig 或 pig –x mapreduce

启动后会看到这样的界面就表示启动成功了

我们来运行一个例子

输入数据student.txt如下

201000101:ZhangLong:Man:20:Computer

201000102:WangLi:Women:19:Software

201000103:LiuHua:Women:18:Compuer

201000104:LiXiao:Man:19:DataStructer

201000105:WuDa:Man:19:System

201000106:HuaKe:Man:19:ComputerSystem

将student.txt上传到HDFS文件系统上面的input目录下面

查看fs –ls /input

最下面一个就是student.txt

运行方式一

--加载数据(注意“=”左右两边要空格)

grunt>> A = load ‘/input/student.txt‘ using PigStorage(‘:‘) as (sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray);

--从A中选出Student相应的字段(注意“=”左右两边要空格)

grunt>> B = foreach A generate sname, sage;

--将B中的内容输出到屏幕上

grunt>> dump B;

--将B的内容输出到HDFS文件系统的文件中

grunt>> store B into ‘/output/result.txt‘;

grunt>> fs –cat /output/result.txt/part-m-00000

结果如下:

可见第一个pig运行成功了

运行方式二

创建一个script.pig文件,将上面执行的语句都放进去,

A = load ‘/input/student.txt‘ using PigStorage(‘:‘) as (sno:chararray, sname:chararray, ssex:chararray, sage:int, sdept:chararray);

B = foreach A generate sname, sage;

dump B;

store B into ‘/result1.txt‘;

然后存储在linux系统本地,然后到该同级目录下,运行pig script.pig

照样成功

时间: 2024-10-07 15:48:49

The First Pig Task的相关文章

Pig升级0.13.0踩过的一个坑

背景:之前的pig版本是0.12,看到社区的0.13.0已经发布好久了,有很多新的patch和feature.其中有一个feature是 设置jar包缓存的参数,pig.user.cache.enabled .这个参数可以提高pig的执行速度.具体看下: https://issues.apache.org/jira/browse/PIG-3954     User Jar Cache     Jars required for user defined functions (UDFs) are

pig 使用tez引擎 OutOfMemoryError

tez版本:0.5.3 pig版本:0.14.0 解决办法: 将tez.task.scale.memory.reserve-fraction 设置的大点.如下: set tez.task.scale.memory.reserve-fraction 0.7d ; 报错详情见下: cause TezChild exit.:java.lang.OutOfMemoryError: Java heap space at org.apache.tez.runtime.library.common.sort.

Conductor Task Workers

由远程worker执行的conductor任务通过HTTP端点进行通信以轮询任务并更新执行状态. conductor提供了轮询任务的框架,管理执行线程并将执行状态更新回服务器.该框架提供了Java和Python中的库.可以通过使用用于任务管理的HTTP端点来添加其他语言支持. Java 实现Worker接口来实现任务.https://github.com/Netflix/conductor/blob/dev/client/src/main/java/com/netflix/conductor/c

C#,Task

1.Task.Run(); static void Main(string[] args) { long a = 9876545678, b = 987654567892; Task task = Task.Run(() => { Add(a, b); }); Console.ReadLine(); } static void Add(long a,long b) { Console.WriteLine("This is the Add method!"); Console.Wr

MapReduce源码分析之Task中关于对应TaskAttempt存储Map方案的一些思考

我们知道,MapReduce有三层调度模型,即Job-->Task-->TaskAttempt,并且: 1.通常一个Job存在多个Task,这些Task总共有Map Task和Redcue Task两种大的类型(为简化描述,Map-Only作业.JobSetup Task等复杂的情况这里不做考虑): 2.每个Task可以尝试运行1-n此,而且通常很多情况下都是1次,只有当开启了推测执行原理且存在拖后腿Task,或者Task之前执行失败时,Task才执行多次. 而TaskImpl中存在一个成员变

实现基于Task的异步模式

返回该系列目录<基于Task的异步模式--全面介绍> 生成方法 编译器生成 在.NET Framework 4.5中,C#编译器实现了TAP.任何标有async关键字的方法都是异步方法,编译器会使用TAP执行必要的转换从而异步地实现方法.这样的方法应该返回Task或者Task<TResult>类型.在后者的案例中,方法体应该返回一个TResult,且编译器将确保通过返回的Task<TResult>是可利用的.相似地,方法体内未经处理的异常会被封送到输出的task,造成返

基础总结篇之三:Activity的task相关

古人學問無遺力,少壯工夫老始成.紙上得來終覺淺,絕知此事要躬行.南宋.陸遊<冬夜讀書示子聿(yù)> 软件行业也是一样,多少前辈不遗余力的奋斗才出现了软件行业的繁荣的景象,其中已有不少成为大师级人物.今天我们站在伟人的肩膀上,自然会有不少的优势,但不要忘了,要在对技术的认知方面有所提升,仍需我们去实践,去实践. 今天我们来讲一下Activity的task相关内容. 上次我们讲到Activity的四种启动模式的时候,已经了解到一些关于task的技术,今天我再向大家介绍一下.task是一个具有栈结

codeforces 570 E. Pig and Palindromes

题意:给出n*m的字母表,求从左上角走到右下角能形成多少个回文串,只能往下或往右走. 做法:dp[r1][c1][r2][c2],从左上角走到(r1,c1),从右下角走到(r2,c2)时,能形成多少个回文串,因为爆内存,表示成dp[step][r1][r2],从左上角走到r1行,从右下角走到r2行,分别走了step步时,能形成多少个回文串,因为c1=step+2-r1,c2=n+m-step-r2,所以是一样的,这样差不多能过了,因为两边最多走250步,所以需要的空间是250*500*500,当

哈理工2015暑假训练赛BNU16488 Easy Task(简单题)

A - Easy Task Time Limit:2000MS    Memory Limit:65536KB    64bit IO Format:%lld & %llu SubmitStatusPracticeZOJ 2969 Description Calculating the derivation of a polynomial is an easy task. Given a function f(x) , we use (f(x))' to denote its derivatio