pig使用入门1

1、在pig下载的安装包,解压完成了之后,有一个tutorial目录,我们使用里面的数据来开始pig学习。如果tutorial目录下没有存在pigtutorial.tar.gz文件的话,那么需要使用ant来编译出这个文件

  如果没有ant,见分类linux下的ant安装

2、进入tutorial目录,执行命令ant

  得到pigtutorial.tar.gz

3、使用tar -zxvf pigtutorial.tar.gz 解压

4、上传excite-small.log进入hdfs中

  $>hadoop dfs -put excite-smal.log /input

  因为使用pig处理的是hdfs中的文件

  我们下面将主要分析excite-small.log文件,该文件的数据结构如下:

  UserID   TimeStamp SearchQuery

5、执行pig进入pig的上下文grunt

6、首先将excite-small.log加载到一个变量(也称之为alias)中,我们将使用该变量来表示这个数据集:

  grunt> log = load ‘excite-small.log‘ as (user, time, query);

  注意的是这时pig并没有运行该命令,仅仅是解析了该命令,只有到使用dump命令或者是store命令时pig才会真正执行该命令。dump命令将打印出这个变量的内容,store命  令将变量所代表的内容保存到一个文件中。

7、 grunt> describe log; 查看结构(语句都以; 结束)

8、如果我们想要查看该log文件的前4行的话:

  grunt> lmt = limit log 4;

  grunt> dump lmt;(打印)

注意:如果出现:Unable to open iterator for alias a,请检查hadoop是否仍处于safemode状态,如果是,退出这个状态。

pig使用入门1,布布扣,bubuko.com

时间: 2024-10-06 06:34:29

pig使用入门1的相关文章

pig使用入门2

1.练习 首先编写两个数据文件A: 0,1,2 1,3,4 数据文件B: 0,5,2 1,7,8 上传到HDFS对应目录/input目录下 2.运行pig ,加载A和B 加载数据A:使用指定的分隔符,    grunt> a = load '/input/A' using PigStorage(',') as (a1:int, a2:int, a3:int); 加载数据B: grunt> b = load '/input/B' using PigStorage(',') as (b1:int,

pig使用入门3-UDF的使用

1.Working with UDF(user defined function) pig能够支持两种类型的UDFs:eval和load/store, 其中load/store的自定义函数主要是用来加载和保存特定的数据格式: eval自定义函数主要用来进行常规的数据转换. 1.1 eval 如果想要实现自定义的eval类型的函数,编写一个类继承自EvalFunc<T>这个抽象类,重写这个类的抽象方法: abstract public T exec(Tuple input) throws IOE

Apache Pig入门学习文档(一)

1,Pig的安装    (一)软件要求    (二)下载Pig      (三)编译Pig 2,运行Pig    (一)Pig的所有执行模式    (二)pig的交互式模式    (三)使用pig脚本执行模式 3,Pig  Latin语句的声明     (一)加载数据     (二)使用和处理数据    (三)存储中间数据 (四)存储最终数据 (五)调试Pig Latin语言 4,Pig的属性值管理 5,Pig一些注意事项 1,Pig的安装 (一)软件安装 必须配置: (1)hadoop 下载地

Hadoop:pig 安装及入门示例

pig是hadoop的一个子项目,用于简化MapReduce的开发工作,可以用更人性化的脚本方式分析数据. 一.安装 a) 下载 从官网http://pig.apache.org下载最新版本(目前是0.14.0版本),最新版本可以兼容hadop 0.x /1.x / 2.x版本,直接解压到某个目录即可. 本文的解压目录是:/Users/jimmy/app/pig-0.14.0 b) 环境变量 export PIG_HOME=/Users/jimmy/app/pig-0.14.0 export H

React开发入门

目录: 一.前言 二.什么是React 三.开发环境搭建 四.预备知识 五.最简单的React小程序 六.基础语法介绍 七.总结 八.参考资料 一.前言 近段时间看到学长公司招聘React Native工程师,当时比较好奇,就搜索了一下,然后刚好需要每个月买一本书看看,所以就买了一本<Reactive Native 开发指南>. 但是看到里面的预备知识的时候,发现首先最好需要先了解一下React(书中写道:我们假设你对React已经有了一些了解),心想是不是还要买一本React的书籍,后来想想

大数据入门:各种大数据技术介绍

转自:http://www.aboutyun.com/thread-7569-1-1.html 大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言.我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性

ElasticSearch入门之花落红尘(三)

上篇文章散仙介绍了ElasticSearch的入门安装和使用,那么本篇我们来看下,如何使用java api来和ElasticSearch进行交互,简单点说,就是实现一个增删改查,来找找入门的感觉. 在这里散仙解释一下,为啥选择使用Java api来作为一个入门的例子,主要原因如下: (1)Java在大中小型企业级应用非常广泛,而且ES本身就是包装了使用java编写的Apache Lucene. (2)基于java的api能和其他很多基于hadoop生态系统的开源框架对接,如Hbase,Hive,

Linux 入门学习之bash基础原理之一

Linux入门之bash基础 编程语言分类: 机器语言.汇编语言.高级语言 静态语言:编译型语言 特点: 变量为强类型 实现转化为一定的可执行格式 常见:C.C++.JAVA.C#.Object-C 注意:一般需要解释器的编程语言一般为静态语言 动态语言:解释性语言 特点: 变量未弱类型,边解释边执行 常见: PHP.SHELL.python.perl lua : 嵌入式脚步语言 编程语言的模型.思想分类 面向过程: shell,C 面向对象: java,python,perl,c++ 一个变量

Hive入门笔记-----架构以及应用介绍

Hive这个框架在Hadoop的生态体系结构中占有及其重要的地位,在实际的业务当中用的也非常多,可以说Hadoop之所以这么流行在很大程度上是因为Hive的存在.那么Hive究竟是什么,为什么在Hadoop家族中占有这么重要的地位,本篇文章将围绕Hive的体系结构(架构).Hive的操作.Hive与Hbase的区别等对Hive进行全方面的阐述. 在此之前,先给大家介绍一个业务场景,让大家感受一下为什么Hive如此的受欢迎: 业务描述:统计业务表consumer.txt中北京的客户有多少位?下面是