Pig初探

Pig环境安装

pig的安装非常简单，将pig-0.14.0.tar.gz解压到合适的目录下

tar -zxvf pig-0.14.0.tar.gz

修改环境变量：

#pig
export PIG_HOME=/usr/local/cloud/pig-0.11.1/pig-0.11.1
export PATH=.:$PIG_HOME/bin:$PATH
export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop   #为了让pig识别你的hadoop版本，如果只想用pig的本地模式，不用配置这项。

使环境变量修改生效：

source /etc/profile

本地模式启动方式pig -x local

[[email protected] pig-0.11.1]# pig -x local
2014-11-24 07:50:19,622 [main] INFO  org.apache.pig.Main - Apache Pig version 0.11.1 (r1459641) compiled Mar 22 2013, 02:13:53
2014-11-24 07:50:19,622 [main] INFO  org.apache.pig.Main - Logging error messages to: /usr/local/cloud/pig-0.11.1/pig-0.11.1/logs/pig_1416844219621.log
2014-11-24 07:50:19,663 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /root/.pigbootup not found
2014-11-24 07:50:19,901 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///
2014-11-24 07:50:19,903 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - mapred.used.genericoptionsparser is deprecated. Instead, use mapreduce.client.genericoptionsparser.used
2014-11-24 07:50:19,907 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
2014-11-24 07:50:19,907 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - mapred.job.tracker is deprecated. Instead, use mapreduce.jobtracker.address
2014-11-24 07:50:20,188 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - io.bytes.per.checksum is deprecated. Instead, use dfs.bytes-per-checksum
2014-11-24 07:50:20,190 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS

修改pig默认的日志存放目录

pig解压后的目录下pig-0.14.0/conf/pig.properties中，修改为合适的目录：

pig.logfile=/usr/local/cloud/pig-0.11.1/pig-0.11.1/logs

pig的mapreduce启动方式(必须启动hadoop)：

[[email protected] pig-0.11.1]# pig
2014-11-24 07:57:16,370 [main] INFO  org.apache.pig.Main - Apache Pig version <span style="font-family: Arial, Helvetica, sans-serif;">0.11.1</span><span style="font-family: Arial, Helvetica, sans-serif;">(r1459641) compiled Mar 22 2013, 02:13:53</span>
2014-11-24 07:57:16,370 [main] INFO  org.apache.pig.Main - Logging error messages to: /usr/local/cloud/pig-0.11.1/pig-0.11.1/logs/pig_1416844636369.log
2014-11-24 07:57:16,410 [main] INFO  org.apache.pig.impl.util.Utils - Default bootup file /root/.pigbootup not found
2014-11-24 07:57:16,681 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://192.168.1.240:9000
2014-11-24 07:57:16,684 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - mapred.used.genericoptionsparser is deprecated. Instead, use mapreduce.client.genericoptionsparser.used
2014-11-24 07:57:16,685 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
2014-11-24 07:57:17,634 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS

测试是否安装成功：

grunt> ls hdfs:///
hdfs://192.168.1.240:9000/source	<dir>
hdfs://192.168.1.240:9000/testdata	<dir>
hdfs://192.168.1.240:9000/tmp	<dir>
hdfs://192.168.1.240:9000/user	<dir>
hdfs://192.168.1.240:9000/usr	<dir>

pig常见命令：

grunt> cd /user/root/output

grunt> ls
hdfs://192.168.1.240:9000/user/root/output/_policy<r 1>	194
hdfs://192.168.1.240:9000/user/root/output/clusteredPoints	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-0	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-1	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-10-final	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-2	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-3	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-4	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-5	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-6	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-7	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-8	<dir>
hdfs://192.168.1.240:9000/user/root/output/clusters-9	<dir>
hdfs://192.168.1.240:9000/user/root/output/data	<dir>
hdfs://192.168.1.240:9000/user/root/output/random-seeds	<dir>

grunt> pig -help
2014-11-24 08:04:11,969 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1000: Error during parsing. Encountered " <IDENTIFIER> "pig "" at line 1, column 1.
Was expecting one of:
    <EOF>
    "cat" ...
    "clear" ...
    "fs" ...
    "sh" ...
    "cd" ...
    "cp" ...
    "copyFromLocal" ...
    "copyToLocal" ...
    "dump" ...
    "describe" ...
    "aliases" ...
    "explain" ...
    "help" ...
    "history" ...
    "kill" ...
    "ls" ...
    "mv" ...
    "mkdir" ...
    "pwd" ...
    "quit" ...
    "register" ...
    "rm" ...
    "rmf" ...
    "set" ...
    "illustrate" ...
    "run" ...
    "exec" ...
    "scriptDone" ...
    "" ...
    "" ...
    <EOL> ...
    ";" ...

时间： 2024-10-11 17:22:16

Pig初探的相关文章

hue3.5.0使用初探(cdh版本)

之前一直用phpHiveAdmin,也一直在关注hue,最近打算调研一下hue,hue在最近两年发展很快,页面效果和功能上都有很大程度的提升,所支持的服务也越来越多,除了hive,hbase,目前还支持sqoop,impala,pig等. hue的一个大致架构如下图所示核心服务是Hue Server,在本地使用SQLLite作为默认的DB,用户可以通过Hue UI(也就是通过浏览器)查看Hue的服务并使用相关的服务.Hue由python实现,通过thrift与所支持的各种服务进行交互. 目前集

Hadoop那些事儿（一）–Hadoop初探

前言 Hadoop是什么? 用百科上的话说:"Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储." 可能有些抽象,这个问题可以在一步步学习Hadoop的各种知识以后再回过头来重新看待. Hadoop大家族 Hadoop不是一个单一的项目,经过10年的发展,Hadoop已经成为了一个拥有近20个产品的庞大家族. 其中最核心的包括以下9个产品,并且我们将按照下面的顺序一步步学习.

Hadoop初探

本文转自:https://blog.csdn.net/column/details/14334.html 前言 Hadoop是什么? 用百科上的话说:"Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储." 可能有些抽象,这个问题可以在一步步学习Hadoop的各种知识以后再回过头来重新看待. Hadoop大家族 Hadoop不是一个单一的项目,经过10年的发展,Hadoop已经成

进阶之初探nodeJS

一.前言在"初探nodeJS"随笔中,我们对于node有了一个大致地了解,并在最后也通过一个示例,了解了如何快速地开启一个简单的服务器. 今儿,再次看了该篇随笔,发现该随笔理论知识稍多,适合初级入门node,固萌生一个想法--想在该篇随笔中,通过一步步编写一个稍大一点的node示例,让我们在整体上更加全面地了解node. so,该篇随笔是建立在"初探nodeJS"之上的,固取名为"进阶之初探nodeJS". 好了,侃了这多,那么我们即将实现一个

从273二手车的M站点初探js模块化编程

前言这几天在看273M站点时被他们的页面交互方式所吸引,他们的首页是采用三次加载+分页的方式.也就说分为大分页和小分页两种交互.大分页就是通过分页按钮来操作,小分页是通过下拉(向下滑动)时异步加载数据. 273这个M站点是产品推荐我看的.第一眼看这个产品时我就再想他们这个三次加载和翻页按钮的方式,那么小分页的pageIndex是怎么计算的.所以就顺便看了下源码. 提到看源码时用到了Chrome浏览器的格式化工具(还是朋友推荐我的,不过这个格式化按钮的确不明显,不会的话自行百度). 三次加载和分

[转载]HDFS初探之旅

转载自 http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html , 感谢虾皮工作室这一系列精彩的文章. Hadoop集群(第8期)_HDFS初探之旅 1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高

codeforces 570 E. Pig and Palindromes

题意:给出n*m的字母表,求从左上角走到右下角能形成多少个回文串,只能往下或往右走. 做法:dp[r1][c1][r2][c2],从左上角走到(r1,c1),从右下角走到(r2,c2)时,能形成多少个回文串,因为爆内存,表示成dp[step][r1][r2],从左上角走到r1行,从右下角走到r2行,分别走了step步时,能形成多少个回文串,因为c1=step+2-r1,c2=n+m-step-r2,所以是一样的,这样差不多能过了,因为两边最多走250步,所以需要的空间是250*500*500,当

MongoDB初探系列之二：认识MongoDB提供的一些常用工具

在初探一中,我们已经可以顺利的将MongoDB在我们自己的机器上跑起来了.但是在其bin目录下面还有一些我们不熟知的工具.接下来,将介绍一下各个小工具的用途以及初探一中MongoDB在data文件夹下创建的文件的用途. 1.bin目录下面的各种小工具简介及使用方式 bsondump.exe 用于将导出的BSON文件格式转换为JSON格式mongo.exe mongoDB的客户端 mongod.exe 用于启动mongoDB的Server mongodump.exe 用于从mongodb数据库中导

玩转大数据系列之Apache Pig如何与Apache Solr集成（二）

散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷贝至本地磁盘,才能提供检索服务,这样以来,比较繁琐,而且有以下几个缺点: (一)在生成索引以及最终能提供正常的服务之前,索引经过多次落地操作,这无疑会给磁盘和网络IO,带来巨大影响 (二)Lucene的Field的配置与其UDF函数的代码耦合性过强,而且提供的配置也比较简单,不太容易满足,灵活多变的