pig使用入门1

1、在pig下载的安装包，解压完成了之后，有一个tutorial目录，我们使用里面的数据来开始pig学习。如果tutorial目录下没有存在pigtutorial.tar.gz文件的话，那么需要使用ant来编译出这个文件

　　如果没有ant，见分类linux下的ant安装

2、进入tutorial目录，执行命令ant

　　得到pigtutorial.tar.gz

3、使用tar -zxvf pigtutorial.tar.gz 解压

4、上传excite-small.log进入hdfs中

　　$>hadoop dfs -put excite-smal.log /input

　　因为使用pig处理的是hdfs中的文件

　　我们下面将主要分析excite-small.log文件，该文件的数据结构如下：

　　UserID TimeStamp SearchQuery

5、执行pig进入pig的上下文grunt

6、首先将excite-small.log加载到一个变量（也称之为alias）中，我们将使用该变量来表示这个数据集：

　　grunt> log = load ‘excite-small.log‘ as (user, time, query);

　　注意的是这时pig并没有运行该命令，仅仅是解析了该命令，只有到使用dump命令或者是store命令时pig才会真正执行该命令。dump命令将打印出这个变量的内容，store命　　令将变量所代表的内容保存到一个文件中。

7、 grunt> describe log; 查看结构（语句都以; 结束）

8、如果我们想要查看该log文件的前4行的话：

　　grunt> lmt = limit log 4;

　　grunt> dump lmt;（打印）

注意：如果出现：Unable to open iterator for alias a，请检查hadoop是否仍处于safemode状态，如果是，退出这个状态。

pig使用入门1,布布扣,bubuko.com

时间： 2024-10-06 06:34:29

pig使用入门1的相关文章

pig使用入门2

1.练习首先编写两个数据文件A: 0,1,2 1,3,4 数据文件B: 0,5,2 1,7,8 上传到HDFS对应目录/input目录下 2.运行pig ,加载A和B 加载数据A:使用指定的分隔符, grunt> a = load '/input/A' using PigStorage(',') as (a1:int, a2:int, a3:int); 加载数据B: grunt> b = load '/input/B' using PigStorage(',') as (b1:int,

pig使用入门3-UDF的使用

1.Working with UDF(user defined function) pig能够支持两种类型的UDFs:eval和load/store, 其中load/store的自定义函数主要是用来加载和保存特定的数据格式: eval自定义函数主要用来进行常规的数据转换. 1.1 eval 如果想要实现自定义的eval类型的函数,编写一个类继承自EvalFunc<T>这个抽象类,重写这个类的抽象方法: abstract public T exec(Tuple input) throws IOE

Apache Pig入门学习文档（一）

1,Pig的安装 (一)软件要求 (二)下载Pig (三)编译Pig 2,运行Pig (一)Pig的所有执行模式 (二)pig的交互式模式 (三)使用pig脚本执行模式 3,Pig Latin语句的声明 (一)加载数据 (二)使用和处理数据 (三)存储中间数据 (四)存储最终数据 (五)调试Pig Latin语言 4,Pig的属性值管理 5,Pig一些注意事项 1,Pig的安装 (一)软件安装必须配置: (1)hadoop 下载地

Hadoop:pig 安装及入门示例

pig是hadoop的一个子项目,用于简化MapReduce的开发工作,可以用更人性化的脚本方式分析数据. 一.安装 a) 下载从官网http://pig.apache.org下载最新版本(目前是0.14.0版本),最新版本可以兼容hadop 0.x /1.x / 2.x版本,直接解压到某个目录即可. 本文的解压目录是:/Users/jimmy/app/pig-0.14.0 b) 环境变量 export PIG_HOME=/Users/jimmy/app/pig-0.14.0 export H

React开发入门

目录: 一.前言二.什么是React 三.开发环境搭建四.预备知识五.最简单的React小程序六.基础语法介绍七.总结八.参考资料一.前言近段时间看到学长公司招聘React Native工程师,当时比较好奇,就搜索了一下,然后刚好需要每个月买一本书看看,所以就买了一本<Reactive Native 开发指南>. 但是看到里面的预备知识的时候,发现首先最好需要先了解一下React(书中写道:我们假设你对React已经有了一些了解),心想是不是还要买一本React的书籍,后来想想

大数据入门：各种大数据技术介绍

转自:http://www.aboutyun.com/thread-7569-1-1.html 大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言.我们可以带着下面问题来阅读本文章:1.hadoop都包含什么技术2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性

ElasticSearch入门之花落红尘（三）

上篇文章散仙介绍了ElasticSearch的入门安装和使用,那么本篇我们来看下,如何使用java api来和ElasticSearch进行交互,简单点说,就是实现一个增删改查,来找找入门的感觉. 在这里散仙解释一下,为啥选择使用Java api来作为一个入门的例子,主要原因如下: (1)Java在大中小型企业级应用非常广泛,而且ES本身就是包装了使用java编写的Apache Lucene. (2)基于java的api能和其他很多基于hadoop生态系统的开源框架对接,如Hbase,Hive,

Linux 入门学习之bash基础原理之一

Linux入门之bash基础编程语言分类: 机器语言.汇编语言.高级语言静态语言:编译型语言特点: 变量为强类型实现转化为一定的可执行格式常见:C.C++.JAVA.C#.Object-C 注意:一般需要解释器的编程语言一般为静态语言动态语言:解释性语言特点: 变量未弱类型,边解释边执行常见: PHP.SHELL.python.perl lua : 嵌入式脚步语言编程语言的模型.思想分类面向过程: shell,C 面向对象: java,python,perl,c++ 一个变量

Hive入门笔记-----架构以及应用介绍

Hive这个框架在Hadoop的生态体系结构中占有及其重要的地位,在实际的业务当中用的也非常多,可以说Hadoop之所以这么流行在很大程度上是因为Hive的存在.那么Hive究竟是什么,为什么在Hadoop家族中占有这么重要的地位,本篇文章将围绕Hive的体系结构(架构).Hive的操作.Hive与Hbase的区别等对Hive进行全方面的阐述. 在此之前,先给大家介绍一个业务场景,让大家感受一下为什么Hive如此的受欢迎: 业务描述:统计业务表consumer.txt中北京的客户有多少位?下面是

猜你喜欢

Struts2的权限拦截代码

package cn.erp.utils.interceptor; import cn.erp.auth.emp.vo.Emp; import cn.erp.auth.res.business.IRe ...

Flex布局新写法兼容写法详解

很久之前用过flex,但是没有考虑过兼容性问题,为了兼容ios一定要加上-webkit前缀: ul{ display: flex; /* 新版本语法: Opera 12.1, Firefox 22+ ...

排序算法----基数排序（RadixSort（L））单链表智能版本

转载http://blog.csdn.net/Shayabean_/article/details/44885917博客先说说基数排序的思想: 基数排序是非比较型的排序算法,其原理是将整数按位数切割 ...

东莞无人工厂变成现实，中国无人工厂将很快普及，保住世界工厂地位

无人工厂概念提出没多久,现在已经被很多人努力把它转变成现实.相对机器人,机器换人,自动化生产,这些说法,无人工厂更加容易被人们接受和受到激励. 无人工厂就是淘汰生产线上的工人,不再需要工人,只要维护无 ...

用 Vim 写 Python 的最佳实践

先来晒个图: 对于一些 Python 的小项目,使用 vim 是一个不错的选择.本文内容整理自我在知乎的回答用用 Vim 写 Python 的最佳实践是什么?,下面的内容是对知乎旧有回答的一个补充, ...

【每日一linux命令5】命令的结合与定向

命令中除了一般命令外,还有管道(或称途径)(|)与定向(>或>>). 管道(途径)的用法: "命令一[选项]"|"命令二[选项]",也就是将& ...

ios bitcode 机制对 dsym 调试文件的影响

今天想试试用dsym和crash文件跟踪crash信息,可是一直返回如下信息: Thread 0 name: Dispatch queue: com.apple.main-thread Thread ...

[Python][Scrapy 框架] Python3 Scrapy的安装

1.方法(只介绍 pip 方式安装) PS.不清楚 pip(easy_install) 可以百度或留言. cmd命令: (直接可以 pip,而不用跳转到 pip.exe目录下,是因为把所在目录加入 P ...

asp.net mvc3利用Areas分离前后台的4种方法

一.引言 : 为什么需要分离? 我们知道MVC项目各部分职责比较清晰,相比较ASP.NET Webform而言,MVC项目的业务逻辑和页面展现较好地分离开来,这样的做法有许多优点,比如可测试,易扩展等 ...

30多年程序员生涯经验总结(成功源自于失败中的学习；失败则是因为容忍错误的横行)

英文原文:Lessons From A Lifetime Of Being A Programmer 在我 30 多年的程序员生涯里,我学到了不少有用的东西.下面是我这些年积累的经验精华.我常常想,如 ...

四川资质网提示：你不可不知的50个建筑学知识

四川资质代办网提示:你不可不知的50个建筑学知识.本书具体论述了古希腊以来构成西方修建艺术基础的重要理念.这些理念包括多个范畴,从技术到装修,从规划到技术,从怎么诠释曩昔到怎么接受将来:这些理念相同 ...

S50非接触式IC卡性能简介（M1）

一.主要指标分为16个扇区,每个扇区为4块,每块16个字节,以块为存取单位: 每个扇区有独立的一组密码及访问控制: 每张卡有唯一序列号,为32位: 具有防冲突机制,支持多卡操作: 无电源,自带天线, ...

Android开发实例之闹钟提醒

本实例通过TimePickerDialog时间选择对话框让用户设置闹钟.并通过AlarmManager全局定时器在指定的时间启动闹钟Activity . 程序执行效果图: 实例代码: package ...

字符集的集中方式

ISO-8859-1:西欧字符集, 一个字节 BIG5: 台湾的大五码,表示繁体汉字 GB2312:国标码, 2个字节一个汉字 GBK: gb2312的扩展, 可以表示繁体汉字 GBK18030:GB ...

数学文献阅读

1. Z. Skalak, On the regularity of the solutions to the Navier-Stokes equations via the gradie ...

osgi + felix example2b编写

前一篇博文中我们讲解了OSGI的传统注册式服务与声明式服务,再前一篇我们我们进行了osgi + felix example2的编写,这一篇博文我们编写了一个Bundle和一个接口并对这个接口进行了相应 ...

Tornado异步阻塞解决方案

在 tornado 中异步无阻塞的执行耗时任务在 linux 上 tornado 是基于 epoll 的事件驱动框架,在网络事件上是无阻塞的.但是因为 tornado 自身是单线程的,所以如果我们在 ...

移动构造函数(c++常问问题十六)

今天我们来讲讲c++11中引入了两个新东西 1.move constructor(移动构造函数) 2.move assignment(移动赋值) Rule of three现在变成了Rule of f ...

让它不是你开的就是的看法烘干机。。

http://bbs.tui18.com/thread-9004580-1-1.html http://bbs.tui18.com/thread-9004573-1-1.html http://bbs ...

07-图6 旅游规划

题目: 有了一张自驾旅游路线图,你会知道城市间的高速公路长度.以及该公路要收取的过路费.现在需要你写一个程序,帮助前来咨询的游客找一条出发地和目的地之间的最短路径.如果有若干条路径都是最短的,那么需要 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.030 s.