[hadoop系列]Pig的安装和简单演示样例

  inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish
)。(来源:http://blog.csdn.net/inkfish)

  Pig是Yahoo!捐献给Apache的一个项目,眼下还在Apache孵化器(incubator)阶段,眼下版本号是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。本文介绍了Pig的安装及简单演示样例的执行,主要參考/翻译自官方文档的Pig Setup

。(来源:http://blog.csdn.net/inkfish)

前提条件:
(来源:http://blog.csdn.net/inkfish)

  • Linux/Unix系统,或带有Cygwin的Windows操作系统,我是用的是Ubuntu 8.04;
  • Hadoop 0.20.X
  • JDK 1.6或更高
  • Ant 1.7(可选,假设想自己编译Pig的话则须要)
  • JUnit 4.5(可选,假设自己想执行单元測试的话则须要)

Pig的安装
(来源:http://blog.csdn.net/inkfish)

1.下载Pig

  能够去Pig的官方主页下载最新的Pig,在写本篇文章时,最新版本号是Pig 0.5.0

2.解压缩

  $ tar -xvf pig-0.5.0.tar.gz

  我一般喜欢把pig装在/opt/hadoop/pig-0.5.0文件夹下

3.环境变量设置

  为了便于Pig以后的升级,我创建了一个软链接,环境变量指向软链接的文件夹,而软链接指向最新的Pig版本号。

  $ ln -s /opt/hadoop/pig-0.5.0 /opt/hadoop/pig

  编辑/etc/enviroment,在PATH添?Pig的bin子文件夹路径(也能够改动~/.bashrc或~/.profile)。

4.验证安装完毕

  又一次进入终端,键入env命令,应该能看到PATH已经生效。键入pig -help命令,则出现帮助信息,代表Pig已经正确安装完成。(来源:http://blog.csdn.net/inkfish)

Pig的执行模式
(来源:http://blog.csdn.net/inkfish)

1.本地模式

  Pig执行于本地模式,仅仅涉及到单独的一台计算机。

2.MapReduce模式

  Pig执行于MapReduce模式,须要能訪问一个Hadoop集群,而且须要装上HDFS。

Pig的调用方式
(来源:http://blog.csdn.net/inkfish)

  • Grunt shell方式:通过交互的方式,输入命令运行任务;
  • Pig script方式:通过script脚本的方式来执行任务;
  • 嵌入式方式:嵌入java源码中,通过java调用来执行任务。

Pig的演示样例代码
(来源:http://blog.csdn.net/inkfish)

  以下就分别介绍这三种不同的调用方式,首先,先展示一下演示样例须要用到的源码,这部分源码与官方文档中的一样,但有例如以下改动:

  • 修正了官方文档中一个错误,即id.pig最后一行id.out两側的全角单引號改为半角单引號;
  • 2.修正了官方文档中一个错误,即idmapreduce.java的runIdQuery方法第一行末尾少一个分号;
  • 3.依照Java常见的命名规范,类名首字母大写。

  script文件:id.pig(来源:http://blog.csdn.net/inkfish)

A = load ‘passwd‘ using PigStorage(‘:‘);
B = foreach A generate $0 as id;
dump B;
store B into ‘id.out’;

  local模式的java文件:Idlocal.java(来源:http://blog.csdn.net/inkfish)

import java.io.IOException;
import org.apache.pig.PigServer;
public class idlocal{
public static void main(String[] args) {
try {
PigServer pigServer = new PigServer("local");
runIdQuery(pigServer, "passwd");
}
catch(Exception e) {
}
}
public static void runIdQuery(PigServer pigServer, String inputFile) throws IOException {
pigServer.registerQuery("A = load ‘" + inputFile + "‘ using PigStorage(‘:‘);");
pigServer.registerQuery("B = foreach A generate $0 as id;");
pigServer.store("B", "id.out");
}
}

  mapreduce模式的java文件:Idmapreduce.java(来源:http://blog.csdn.net/inkfish)

import java.io.IOException;
import org.apache.pig.PigServer;
public class idmapreduce{
public static void main(String[] args) {
try {
PigServer pigServer = new PigServer("mapreduce");
runIdQuery(pigServer, "passwd");
}
catch(Exception e) {
}
}
public static void runIdQuery(PigServer pigServer, String inputFile) throws IOException {
pigServer.registerQuery("A = load ‘" + inputFile + "‘ using PigStorage(‘:‘);");
pigServer.registerQuery("B = foreach A generate $0 as id;");
pigServer.store("B", "idout");
}
}

  两个java类须要进行编译,编译命令:

    javac -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idlocal.java

    javac -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idmapreduce.java

  当中pig-0.5.0-core.jar如不在当前文件夹,则要指明其全路径。(来源:http://blog.csdn.net/inkfish)

1.Grunt shell方式

  Grunt shell方式首先用pig命令启动,pig命令能够加參数“-x local”代表本地模式,或“-x mapreduce”代表mapreduce模式,默认mapreduce模式。

    $ pig -x local

    $ pig

    $ pig -x mapreduce

  按行输入命令:

    grunt> A = load ‘passwd‘ using PigStorage(‘:‘);

    grunt> B = foreach A generate $0 as id;

    grunt> dump B;

    grunt> store B into ‘out‘;

  当中,“dump B”表示在屏幕中显示结果,“store B into ‘out‘”表示把结果输出到out文件/目录中。在local模式中,out文件写入到当前目录;mapreduce中,out目录则须要给出绝对路径。
(来源:http://blog.csdn.net/inkfish)

2.Pig script方式

  script方式中,用pig命令启动,后面带要执行的.pig文件就可以,如:

    $ pig -x local id.pig

    $ pig id.pig

    $ pig -x mapreduce id.pig

(来源:http://blog.csdn.net/inkfish)

3.嵌入式方式(来源:http://blog.csdn.net/inkfish)

  嵌入式方式与执行于执行普通java类方式没有不论什么不同,如:

    java -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idmapreduce

    java -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idlocal

(来源:http://blog.csdn.net/inkfish)

时间: 2024-11-01 17:54:12

[hadoop系列]Pig的安装和简单演示样例的相关文章

Libevent 学习笔记 (1)——Libevent 2.0安装与简单演示样例

今天開始学习Libevent . Libevent 是开源社区的一款高性能I/O框架库. 主要特点有: 1 跨平台. 2 统一事件源 3 线程安全 4 基于Reactor 今天主要进行了Libevent的安装,以及利用libevent框架编写一个间隔1s打印 Hello Libevent! 信息的程序. 首先是安装: 1 下载libevent源代码,下载地址http://libevent.org/.我下载的版本号是2.0 stable版本号.下载的文件格式是tar.gz包 2 进入刚下载得到的t

JBoss 系列九十六:JBoss MSC - 简介及一个简单演示样例

什么是 JBoss MSC JBoss MSC 即 JBoss Modular Service Container,是第三代 JBoss 产品 JBoss 7和WildFfly的内核,JBoss MSC 替换了之前的 JMX Kernel 和 MicroContainer,它主要特定能够总结例如以下三点: 高并发容器(A highly concurrent state machine) 无多相位,设计简单(No multiple phases, much simpler) 不依赖 JMX 和 J

一则简单演示样例看Oracle的“无私”健壮性

Oracle的强大之处就在于他能总帮助让你选择正确的运行计划,即使你给了它错误的指示. 实验: 1. 创建測试表: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYmlzYWw=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" > 收集统计信息: 创建B树索引: 2. 运行select id from tbl_plan;查看它的运行计划: 由于创建了

MongoDB + node-mongoskin简单演示样例

特点 无模式 MongoDB 中的每一条文档,都是一个 JSON 对象,因此你无需提前定义一个集合的结构,集合中的每一个文档也能够有不同的结构. 异步写入 MongoDB 默认全部的写操作都是『不安全』的,即当请求被 MongoDB 收到时,不等写入操作完毕,就返回一个『成功』的响应. 这是默认的行为,当然你也能够设置一些选项,让操作等待等待写入完毕后再返回响应.只是对于大多数应用,这样的『不安全』已经足够安全了. 简单查询 MongoDB 仅仅支持简单的查询,MongoDB 仅仅储存数据,很多

XLSTransformer生成excel文件简单演示样例

项目结构图: 项目中所用到的jar,能够到http://www.findjar.com/index.x下载 ExcelUtil类源代码: package util; import java.io.IOException; import java.net.URL; import java.util.HashMap; import java.util.List; import java.util.Map; import net.sf.jxls.exception.ParsePropertyExcep

一个简单演示样例来演示用PHP訪问表单变量

首先编写表单页面orderform.html,用post方法请求服务端脚本文件:processorder.php orderform.html: <!DOCTYPE html> <html> <head lang="zh_CN"> <meta charset="UTF-8"> <title>订单页面</title> </head> <body> <h2>Jas

最简单的视音频播放演示样例4:Direct3D播放RGB(通过Texture)

===================================================== 最简单的视音频播放演示样例系列文章列表: 最简单的视音频播放演示样例1:总述 最简单的视音频播放演示样例2:GDI播放YUV, RGB 最简单的视音频播放演示样例3:Direct3D播放YUV,RGB(通过Surface) 最简单的视音频播放演示样例4:Direct3D播放RGB(通过Texture) 最简单的视音频播放演示样例5:OpenGL播放RGB/YUV 最简单的视音频播放演示样例

最简单的视音频播放演示样例7:SDL2播放RGB/YUV

===================================================== 最简单的视音频播放演示样例系列文章列表: 最简单的视音频播放演示样例1:总述 最简单的视音频播放演示样例2:GDI播放YUV, RGB 最简单的视音频播放演示样例3:Direct3D播放YUV,RGB(通过Surface) 最简单的视音频播放演示样例4:Direct3D播放RGB(通过Texture) 最简单的视音频播放演示样例5:OpenGL播放RGB/YUV 最简单的视音频播放演示样例

展示C代码覆盖率的gcovr工具简单介绍及相关命令使用演示样例

(本人正在參加2015博客之星评选,诚邀你来投票,谢谢:username=zhouzxi">http://vote.blog.csdn.net/blogstar2015/candidate?username=zhouzxi) 近期,由于要展示某项目的单元測试的代码覆盖率.我无意间在网上找到了gcovr工具.使用之后,认为这个工具相当的不错,于是便写下这篇文章,可供相关的开发者參考. 简而言之,gcovr是一个将单元測试中的代码覆盖率以多种方式(包含列表方式.XML文件方式.HTML网页方式