Pig运行

Pig是作为客户端运行的程序，你需要将其连接到本地Hadoop或者集群上。当安装Pig之后，有三种执行pig程序的方法：pig脚本（将程序写入.pig文件中），Grunt（运行Pig命令的交互式shell环境）和嵌入式方式。
records = Load ‘sample.txt’ as (year:chararray, temperature:int, quality:int);
filter_records = FILTER records BY temperature != 9999 AND quality == 0;
group_records = GROUP filter_records BY year;
max_temp = FOREACH group_records GENERATE group, MAX(filter_records.temperature);
DUMP max_temp;
生成上面程序的创建的数据集结构： grunt> ILLUSTRATE max_temp;
Pig和数据库的比较：
1）Pig是数据流编程语言，而SQL是一种描述型编程语言。Pig是相对于输入的一步步操作，其中每一步都是对数据的一个简单的变换；而SQL语句是一个约束的集合，这些约束结合在一起定义了输出。Pig更像RDBMS中的查询规划器。
2）RDBMS把数据存储在严格定义了模式的表内，但pig对数据的要求更宽松，可以在运行时定义模式，而且是可选的。
3）pig对复杂、嵌套数据结构的支持更强；
4）Pig不支持事务和索引，也不支持随机读和几十毫秒级别的查询，它是针对数据批量处理的。
5）Hive是介于Pig和RDBMS之间的系统。Hive以HDFS为存储，但是查询语言是基于SQL的，而且Hive要求所有数据必须存储在表中，
表必须有模式，而模式由Hive管理。但Hive允许为预先存在HDFS中的数据关联一个模式，因此数据加载步骤是可选的。

更多精彩内容请关注：http://bbs.superwu.cn

关注超人学院微信二维码：

时间： 2025-01-01 20:54:34

Pig运行的相关文章

Pig安装及简单使用(pig版本0.13.0,Hadoop版本2.5.0)

原文地址:http://www.linuxidc.com/Linux/2014-03/99055.htm 我们用MapReduce进行数据分析.当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式,另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情. Pig的出现很好的弥补了这一不足.Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序的编写

Apache Pig的前世今生

最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===> Apache 猪的笔记,看起来Apache的猪,比较厉害啊,都能写笔记了. 开个玩笑,下面进入正题,散仙,尽量写的通俗易懂,让大家看了之后都能够理解这头Pig

Hadoop Pig简介、安装、试用

相比Java的MapReduce api,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据结构,一般都是多值和嵌套的数据结构.Pig还提供了一套更强大的数据变换操作,包括在MapReduce中被忽视的连接Join操作. Hadoop版本:2.2.0 Pig版本:0.12.1 Pig介绍 Pig包括两部分: 用于描述数据流的语言,称为Pig Latin. 用于执行Pig Latin程序的执行环境,当前有两个环境:单JVM中的本地执行环境和Hadoo

Hadoop第8周练习—Pig部署及统计访问日志例子

1 运行环境说明... 3 1.1 硬软件环境... 3 1.2 机器网络环境... 3 2 书面作业0:搭建Pig环境... 3 2.1 Pig介绍... 3 2.2 部署过程... 4 2.2.1 下载Pig. 4 2.2.2 上传Pig. 4 2.2.3 解压缩... 5 2.2.4 设置环境变量... 6 2.2.5 验证安装完成... 6 3 书面作业1:计算每个IP点击次数... 7 3.1 书面作业1内容

pig基础知识总结

Pig Latin UDF语句 REGISTER 在Pig运行时环境中注册一个JAR文件 DEFINE 为UDF.流式脚本或命令规范新建别名 Pig Latin命令类型 kill 中止某个MapReduce任务 exec 在一个新的Grunt shell程序中以批处理模式运行一个脚本 run 在当前Grunt外壳程序中运行程序 quit 退出解释器 set 设置Pig选项模式(Schema) Pig的一个关系可以有一个关联的模式,模式为关系的字段指定名称和类型

Pig系统分析(7)-Pig有用工具类

Explain Explain是Pig提供的调试工具,使用explain能够输出Pig Lation的运行计划. 值得一提的是,explain支持-dot选项,将运行计划以DOT格式输出, (DOT是一种图形描写叙述语言,请參考http://zh.wikipedia.org/zh/DOT%E8%AF%AD%E8%A8%80) 代码实现详见org.apache.pig.impl.plan.DotPlanDumper,这部分实现为我们设计运行计划可视化提供了參考. 下图部分截取了使用Graphviz

The First Pig Task

The First Pig Program 环境: Hadoop-1.1.2 pig-0.11.1 linux系统为CentOS6.4 jdk1.6 在伪分布式下模式下运行启动:pig 或 pig –x mapreduce 启动后会看到这样的界面就表示启动成功了我们来运行一个例子输入数据student.txt如下 201000101:ZhangLong:Man:20:Computer 201000102:WangLi:Women:19:Softwa

如何给Apache Pig自定义UDF函数？

近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天时间,大致看完了pig官网的文档,在看文档期间,也是边实战边学习,这样以来,对pig的学习,会更加容易,当然本篇不是介绍如何快速学好一门框架或语言的文章,正如标题所示,散仙打算介绍下如何在Pig中,使用用户自定义的UDF函数,关于学习经验,散仙会在后面的文章里介绍. 一旦你学会了UDF的使用,就意味

pig使用

可以作为一个随身参考 1.更简单的挖掘大规模数据集而发明. 可使用用户定义语言UDF进行修改运行pig脚本 pig script.pig grunt自动补全机制 tab键创建autocomplete文件,常用单词或文件路径 quit退出2.示例计算年度最高气温 --表示注释 1)records = LOAD '外部文件' as --制表符分割(year:chararray,temperatrue:int,quality:int); 2)filtered_records = fil

猜你喜欢

Html_Head部分及基本块级标签_Day01

主要总结内容总结如下: 1. <!DOCTYPE>: Html的文档类型声明. 声明该文件是Html 5文件, 让浏览器按照Html 5准备进行解析显示. 文档声明在Html文件中必须要有 ...

官网地址备份

软件官网: eclipse官网: http://www.eclipse.org/ Linux镜像更新地址: http://www.linuxidc.com/Linux/2007-09/7399.htm ...

正则表达式匹配邮箱和手机号

// 判断是否为邮箱地址 function isEmail(emailStr) { var reg = /[\d\w\._-][email protected][\d\w]+\.[\w]+/; ret ...

URL loading system

https://developer.apple.com/library/content/documentation/Cocoa/Conceptual/URLLoadingSystem/URLLoadi ...

python：将numpy数组写入csv文件

1 import numpy as np 2 np.savetxt('E:\\forpython\\featvector.csv',data_to_save,delimiter=',')

mmm中国社区的目标是什么？

mmm中国社区咨询QQ 1027920961 mmm中国社区的目标是的目的是激励未知的人给对方的钱没有任何条件,在基金.互助银行的框架.因此,进化改变社会经济关系的性质.不同的慈善机构,为自己在困难 ...

主存空间的分配和回收

1. 目的和要求 1.1. 实验目的用高级语言完成一个主存空间的分配和回收程序,以加深对动态分区分配方式及其算法的理解. 1.2. 实验要求采用连续分配方式之 ...

11.python并发入门（part7 线程队列）

一.为什么要用队列? 队列是一种数据结构,数据结构是一种存放数据的容器,和列表,元祖,字典一样,这些都属于数据结构. 队列可以做的事情,列表都可以做,但是为什么我们还要去使用队列呢? 这是因为在多线程 ...

移动端Web前端注解

一,布局移动端的整体布局一般来说可以分为上中下三个部分,分别为 header.main.footer,其中header.footer 是固定高度,分别固定在页面顶部和页面底部,而 main 是占据页 ...

[ZigBee] 2、 ZigBee开发环境搭建

本节介绍ZigBee基本开发环境搭建,附件中有本节介绍的软件下载地址~ 链接:http://pan.baidu.com/s/1bLdqxg 1.IAR Embedded Workbench 的安装 S ...

UIControl及其子类

UIControl是有控制功能的视图的父类,只要跟控制有关的控件都是继承于该类,UIControl这个类通常我们并不直接使用,而是使用其子类,以下介绍一些它的子类 UISlider: UISegmen ...

WP修改ProgressBar的前景色

修改ProgressBar的前景色做一个小项目时,用到 ProgressBar添加一个加载效果,但是背景不是白色的,调试时发现自己选的主题色与背景色相近,特别不清晰,加载效果几乎看不见,于是就要修改 ...

给出2n+1个数，其中有2n个数出现过两次，如何用最简便的方法找出里面只出现了一次的那个数(转载)

有2n+1个数,其中有2n个数出现过两次,找出其中只出现一次的数例如这样一组数3,3,1,2,4,2,5,5,4,其中只有1出现了1次,其他都是出现了2次,如何找出其中的1? 最简便的方法是使用异或 ...

ie6 下图片预加载的问题

1.昨天帮同事看了一个问题就是 ie6 下图片预加载图片显示不出来代码如下 var image = new Image(); image.src = "xx.jpg"; im ...

python暴力破解root密码

环境准备: 1.安装paramiko模块 2.服务器ssh服务开启22号端口下面请看代码 #!/usr/bin/py #-*- coding: utf-8 - ...

我的WebX框架学习总结与心得分享

最近学习了webx框架, 利用博客园跟大家分享一下自己的学习心得; 周建旭 2014-08-21 网上关于webx的资料少的可怜, 怎么办? 这种情况下不用去求助别人求人只会耽误时间, 不用畏惧; ...

leetcode：142. Linked List Cycle II（Java）解答

转载请注明出处:z_zhaojun的博客原文地址:http://blog.csdn.net/u012975705/article/details/50412899 题目地址:https://leet ...

webdriver 调用浏览器失败

用webdriver调用浏览器的时候发生了错误提示:raise WebDriverException("Can not connect to the Service %s" % s ...

ios开发事件处理之：三：寻找最合适的view

1:事件的产生与传递: 2:寻找最合适的view:如何查找最合适的view:需要三步:1:先判断自身是否能接受触摸事件 2:判断触摸点是否在自己身上 3:若前两条都满足,则其会从后往前遍历所有子控件( ...

android安卓onCreate方法中获取控件宽度高度

ViewTreeObserver vto = imageView.getViewTreeObserver(); vto.addOnGlobalLayoutListener(new OnGlobalLa ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.