pig实用技巧

并行处理: 可以在很多语句中指定reducer的数量  
   group, join, cogroup, cross, distinct, order  
(复习:reduce的任务个数设置为稍小于集群中的reduce任务槽数)  
参数替换:在pig语句中使用$加变量名的方式使用外部定义的变量值,在运行时可以通过"-param input=”设置变量的值, 
或者通过"-param_file ”来指定参数文件。  
动态参数:很多Unix shell用反引号引用的命令来替换实际值,如`date “+%Y-%m-%d” `会按规定格式输出日期。 
这个可以放在-param或参数文件中来动态得到一个值。  
我这里以Mysql 5.1.x为例,Pig的版本是0.8,同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下:  
tmp_file_1: Txt代码   
zhangsan    23  1   lisi    24  1   
wangmazi    30  1   meinv   18  0   dama    55  0    
tmp_file_2: Txt代码   1 a 23 bb 50 ccc 30 dddd 66 eeeee    
1.从文件导入数据  
   1)Mysql (Mysql需要先创建表).  
       CREATE TABLE TMP_TABLE(USER VARCHAR(32),AGE INT,IS_MALE BOOLEAN);  
       CREATE TABLE TMP_TABLE_2(AGE INT,OPTIONS VARCHAR(50));   -- 用于Join  
       LOAD DATA LOCAL INFILE ‘/tmp/data_file_1‘  INTO TABLE TMP_TABLE   
       LOAD DATA LOCAL INFILE ‘/tmp/data_file_2‘  INTO TABLE TMP_TABLE_2;  
   2)Pig  
        tmp_table = LOAD ‘/tmp/data_file_1‘ USING PigStorage(‘\t‘) AS (user:chararray, age:int,is_male:int);  
        tmp_table_2= LOAD ‘/tmp/data_file_2‘ USING PigStorage(‘\t‘) AS (age:int,options:chararray);    
2.查询整张表  
   1)Mysql  
      SELECT * FROM TMP_TABLE;  
   2)Pig  
      DUMP tmp_table;  
3. 查询前50行  
   1)Mysql  
      SELECT * FROM TMP_TABLE LIMIT 50;  
   2)Pig  
       tmp_table_limit = LIMIT tmp_table 50;  
       DUMP tmp_table_limit;         4.查询某些列  
   1)Mysql  
       SELECT USER FROM TMP_TABLE;  
   2)Pig  
       tmp_table_user = FOREACH tmp_table GENERATE user;  
       DUMP tmp_table_user;  
5. 给列取别名  
    1)Mysql  
       SELECT USER AS USER_NAME,AGE AS USER_AGE FROM TMP_TABLE;  
    2)Pig  
6.排序  
    1)Mysql  
       SELECT * FROM TMP_TABLE ORDER BY AGE;  
    2)Pig  
        tmp_table_order = ORDER tmp_table BY age ASC;  
        DUMP tmp_table_order;    
7.条件查询  
    1)Mysql  
        SELECT * FROM TMP_TABLE WHERE AGE>20;  
    2) Pig  
        tmp_table_where = FILTER tmp_table by age > 20;  
        DUMP tmp_table_where;    
8.内连接Inner Join  
    1)Mysql  
       SELECT * FROM TMP_TABLE A JOIN TMP_TABLE_2 B ON A.AGE=B.AGE;  
    2)Pig  
        tmp_table_inner_join = JOIN tmp_table BY age,tmp_table_2 BY age; 
       DUMP tmp_table_inner_join; 
9.左连接Left  Join  
   1)Mysql  
       SELECT * FROM TMP_TABLE A LEFT JOIN TMP_TABLE_2 B ON A.AGE=B.AGE;  
   2)Pig  
      tmp_table_left_join = JOIN tmp_table BY age LEFT OUTER,tmp_table_2 BY age;  
      DUMP tmp_table_left_join;  
10.右连接Right Join  
     1)Mysql  
        SELECT * FROM TMP_TABLE A RIGHT JOIN TMP_TABLE_2 B ON A.AGE=B.AGE;  
     2)Pig  
        tmp_table_right_join = JOIN tmp_table BY age RIGHT OUTER,tmp_table_2 BY age;  
        DUMP tmp_table_right_join;  
11.全连接Full Join  
     1)Mysql  
        SELECT * FROM TMP_TABLE A  JOIN TMP_TABLE_2 B ON A.AGE=B.AGE  
            UNION SELECT * FROM TMP_TABLE A LEFT JOIN TMP_TABLE_2 B ON A.AGE=B.AGE  
            UNION SELECT * FROM TMP_TABLE A RIGHT JOIN TMP_TABLE_2 B ON A.AGE=B.AGE;  
     2)Pig  
        tmp_table_full_join = JOIN tmp_table BY age FULL OUTER,tmp_table_2 BY age;  
       DUMP tmp_table_full_join;    
12.同时对多张表交叉查询  
    1)Mysql  
       SELECT * FROM TMP_TABLE,TMP_TABLE_2;  
    2)Pig  
       tmp_table_cross = CROSS tmp_table,tmp_table_2;  
       DUMP tmp_table_cross;    
13.分组GROUP BY  
   1)Mysql  
      SELECT * FROM TMP_TABLE GROUP BY IS_MALE;  
   2)Pig  
      tmp_table_group = GROUP tmp_table BY is_male;  
      DUMP tmp_table_group;  
14.分组并统计  
     1)Mysql  
       SELECT IS_MALE,COUNT(*) FROM TMP_TABLE GROUP BY IS_MALE;  
     2)Pig  
        tmp_table_group_count = GROUP tmp_table BY is_male;  
        tmp_table_group_count = FOREACH tmp_table_group_count GENERATE group,COUNT($1);  
        DUMP tmp_table_group_count; 
15.查询去重DISTINCT  
     1)MYSQL  
        SELECT DISTINCT IS_MALE FROM TMP_TABLE;  
     2)Pig  
        tmp_table_distinct = FOREACH tmp_table GENERATE is_male;  
        tmp_table_distinct = DISTINCT tmp_table_distinct;  

DUMP  tmp_table_distinct;

更多精彩内容请关注:http://bbs.superwu.cn

关注超人学院微信二维码:

时间: 2024-10-02 13:17:24

pig实用技巧的相关文章

Mac预览怎么用 Mac预览功能实用技巧大全

Mac预览怎么用?有很多的用户以为Mac自带的预览功能只具有简单的图片浏览功能,其实不然,其实"预览"是一款强大的看图.修图.改图软件,也同时是一款多功能的 PDF 阅读与编辑工具,接下来Pc6苹果小编给大家详细介绍一下Mac预览功能实用技巧. 目前的 Mac 预览程式可以支持 TIFF. PNG. JPEG. GIF. BMP. PDF 等主要文件格式的浏览与编辑,而单纯预览上也可以支持像是 Photoshop 等专业图像处理软件. Office 等专业文书处理软件所产生的特殊文件格

iOS开发实用技巧—Objective-C中的各种遍历(迭代)方式

iOS开发实用技巧—Objective-C中的各种遍历(迭代)方式 说明: 1)该文简短介绍在iOS开发中遍历字典.数组和集合的几种常见方式. 2)该文对应的代码可以在下面的地址获得:https://github.com/HanGangAndHanMeimei/Code 一.使用for循环 要遍历字典.数组或者是集合,for循环是最简单也用的比较多的方法,示例如下: 1 //普通的for循环遍历 2 -(void)iteratorWithFor 3 { 4 //////////处理数组/////

NSString的八条实用技巧

NSString的八条实用技巧 有一篇文章写了:iOS开发之NSString的几条实用技巧 , 今天这篇,我们讲讲NSString的八条实用技巧.大家可以收藏起来,方便开发随时可以复制粘贴. 0.首字母大写 代码: //首字母大写 NSString *string = @"ligang"; NSLog(@"string: %@",[string capitalizedString]); 打印: 2015-07-16 23:06:11.652 iOSStrongDem

Android开发:TVBox智能机顶盒开发实用技巧分享

本文旨在指导想要进入Android TVBox智能机顶盒开发领域或刚刚进入Android TVBox开发领域的新人带路,愿你们越走越远! 实用工具篇 Eclipse+ADT 别问它干嘛用的,我也不知道. SercureCRT SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,同时支持Telnet和rlogin协议. SecureCRT是一款用于连接运行包括Windows.UNIS和VMS的远程系统的理想工具. 通过使用内含的VCP命令行程序可以进行加密文件的传输.有流行CR

程序员在编程开发中的10个实用技巧

程序员在编程开发中的10个实用技巧,下面是我自己在工作中学到的一些简单的技巧和策略,希望能对各位有用.1.     橡皮鸭调试法不知道各位有没有这样的经历,当你正在给别人描述问题的时候,突然灵机一动想到了解决方案?这种情况的产生是有科学依据的.高谈阔论能让我们的大脑重新有条理地组织问题.在这种情况下,你的聊天对象就是“橡皮鸭”.团队中的每个人都应该积极主动乐意地成为彼此的“橡皮鸭”.有时候,如果你幸运的话,你的“橡皮鸭”搞不好还能给出有效的建议呢.2.     快速信息反馈一旦写好代码就要尽快得

iOS实用技巧 - 简易实现多皮肤功能

前言:不记得谁说的了,中国的用户大概是世界上最喜欢多皮肤功能的用户了.我很讨厌写安卓程序,图形界面设计工具及其难用,还不如手写,编辑器慢如蜗牛,智能提示总是跟不上我输入的速度,相同的功能,安卓的代码量至少是iOS的三倍,每写一行代码,都觉得自己的手指在滴血.可是安卓灵活统一的style功能确实很贴心!5之前,iOS平台上实现相同的功能一直没有个比较好的办法. iOS5之后,苹果将所有界面组件的设定,都绑定在一个叫UIAppearance的协议上了,你可以简单的通过UIAppearance设定组件

iOS实用技巧 - AFNetworking2安全的使用自签证书访问HTTPS

友情提示:本文使用的AFNetworking是最新git pull的2.3.1版本,如果想确认你机器上的AFNetworking版本,请打git tag命令查看. 绝大部分iOS程序的后台服务都是基于RESTful或者WebService的,不论在任何时候,你都应该将服务置于HTTPS上,因为它可以避免中间人攻击的问题,还自带了基于非对称密钥的加密通道!现实是这些年涌现了大量速成的移动端开发人员,这些人往往基础很差,完全不了解加解密为何物,使用HTTPS后,可以省去教育他们各种加解密技术,生活轻

雅思论文写作的实用技巧

既然我们搞清楚了问题所在,那么,如何针对以上问题提高雅思议论文的写作能力呢?经过长期的教学实践,笔者总结出可供广大中国考生学习和借鉴的方法. (一)增大阅读量. 古语道:“读书破万卷,下笔如有神.”写作是语言输出的实践过程,只有达到一定量的输入,才会有源源不断的输出.因此,广大中国的考生们要多读英文报纸杂志,如ChinaDaily,21st Century,EnglishSalon,EnglishWorld等. 之所以这样做,是因为阅读可以起到一箭数雕的作用.其一,可以提高阅读能力.其二.可以扩

【开发工具】vim编辑器实用技巧总结

总结一些我们在平时使用vim编辑器的一些实用功能,后续会一直更新. 1.  visual插件 visual插件其实相当于一个书签作用,比如我们在一篇很长的源代码文件中,我们可以标记一行,然后后来我们再想回到这一行时,只需要一个快捷键就能迅速定位到这一行,非常方便,不用不停地往上或往下翻. 1.1  常用命令 1.  mm标记一个标签: 2.  F2回到被标记的那一行: 3.  连续按两次mm就可以取消标签: 4.  shift+F2可以在几个标签来回切换: 2.  emmet.vim插件 emm