Pig的安装和简单实用

1.Pig是基于hadoop的一个数据处理的框架。
MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。
2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。
3.Pig基本数据类型:int、long、float、double、chararray、bytearray
复合数据类型:Map、Tuple、Bag
Bag的类型如{(‘age‘,31),(‘name‘,‘张三‘)}

4.如何安装Pig
4.1 把pig-0.11.1.tar.gz复制到/usr/local下
4.2 使用命令tar -zxvf pig-0.11.1.tar.gz解压缩
4.3 使用命令mv pig-0.11.1 pig 进行重命名
4.4 编辑文件vi /etc/profile 设置环境变量
export PIG_HOME=/usr/local/pig
export PATH =......:$PIG_HOME/bin....
保存,然后执行source /etc/profile
4.5 编辑文件$PIG_HOME/conf/pig.properties,增加两行如下内容
fs.default.name=hdfs://hadoop0:9000 (见/usr/local/hadoop/conf/core-site.xml)
mapred.job.tracker=hadoop0:9001 (见/usr/local/hadoop/conf/mapred-site.xml)

5.对wlan数据(手机上网日志)如何使用pig进行分析处理
5.1 把待处理的数据上传到HDFS中
hadoop fs -put HTTP.dat /wlan
5.2 把HDFS中的数据转换为pig可以处理的模式(执行pig命令,就进入到pig命令行模式下)
A = LOAD ‘/wlan‘ AS (t0:long, msisdn:chararray, t2:chararray, t3:chararray, t4:chararray, t5:chararray, t6:long, t7:long, t8:long, t9:long, t10:chararray);
DUMP A; ----查看

5.3 把里面的有用的字段抽取出来
B = FOREACH A GENERATE msisdn, t6, t7, t8, t9;
DUMP B;

5.4 分组数据
C = GROUP B BY msisdn;
DUMP C;

5.5 流量汇总
D = FOREACH C GENERATE group, SUM(B.t6), SUM(B.t7), SUM(B.t8), SUM(B.t9); -----group代表第一列手机号码的字段(汇总出同一个手机号码的流量)
DUMP D;

5.6 存储到HDFS中
STORE D INTO ‘/wlan_result‘;
查看HDFS:
hadoop fs -lsr /
hadoop fs -text /wlan_result/part-r-*

还可以排序:
E = ORDER D BY group;
DUMP E;

时间: 2024-10-12 18:57:58

Pig的安装和简单实用的相关文章

[hadoop系列]Pig的安装和简单演示样例

inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish ).(来源:http://blog.csdn.net/inkfish) Pig是Yahoo!捐献给Apache的一个项目,眼下还在Apache孵化器(incubator)阶段,眼下版本号是v0.5.0.Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运

hook框架frida的安装以及简单实用案例

1.下载地址 https://github.co/frida/frida/releases 2.另外两种安装方法 1.Install from prebuilt binaries This is the recommended way to get started. All you need to do is: pip install frida-tools # CLI tools pip install frida # Python bindings npm install frida # N

redis安装与简单实用

1.在Linux上redis的安装时十分简单的: 第一步:wget http://download.redis.io/releases/redis-2.8.12.tar.gz 解压: tar zxvf redis-2.8.12.tar.gz 进入目录:  cd redis-2.8.12 编译:make 启动并运行redis:src/redis-server 新开一个终端:cd redis-2.8.12 运行redis客户端: src/redis-cli [[email protected] re

Sublime Text3 安装和简单实用

在前端开发的过程中,编辑器是必须要用的,前辈们留给我们很多优秀的编辑器.notepad++.editPlus.Emacs不太适合前端开发,vim学习成本太高,brackets我并不觉得好用,还有微软最近出的Visual Studio Code.就前端范围来讲webstrom绝对是个利器,但毕竟软件太大,很多电脑跑起来有点费力,另一个就是大名鼎鼎Sublime Text,现在已经升级到第三版了.我就记下来吧! Mooc有一个很好的Sublime编辑器使用教程,有时间可以看看!地址:http://w

Linux系统ELK的安装和简单实用(一)

本博客安装的ELK版本为目前最新版本6.3.0,由于elasticsearch是基于java开发的,所以对JDK的版本有要求,在5.0以后的版本中,要求JDK版本不低于1.8的才可正常实用. 同时,elasticsearch,logstash,kibana三个版本最好一致,否则会产生因版本冲突发生的错误. 下面开始安装步骤: 1.elasticsearch的安装 下载elasticsearch的官方版本:https://www.elastic.co/cn/downloads/elasticsea

Linux下Libevent安装和简单实用

前言 Libevent 是一个用C语言编写的.轻量级的开源高性能事件通知库,主要有以下几个亮点:事件驱动( event-driven),高性能;轻量级,专注于网络,不如 ACE 那么臃肿庞大:源代码相当精炼.易读:跨平台,支持 Windows. Linux. *BSD 和 Mac Os:支持多种 I/O 多路复用技术, epoll. poll. dev/poll. select 和 kqueue 等:支持 I/O,定时器和信号等事件:注册事件优先级.Libevent 已经被广泛的应用,作为底层的

QT5安装及简单实用-01

下载地址:http://qt-project.org/downloads 版本选择: 刚开始我安装的是第一版本,运行一个程序 报错!说编译器没配置,可能需要安装msvc2012 才好使吧,我没试过. 最后,我安装的是mingw版本,并且 有安装了mingw(首先安装),这样就OK 我的系统 win7 64

安装并简单实用salt-ssh

1.安装epel源.salt-ssh yum -y install epel-release yum -y install salt-ssh 2.编辑添加主机的登录凭证 vim /etc/salt/roster salt2: host: 10.0.0.106 user: root passwd: centos salt3: host: 10.0.0.107 user: root passwd: centos 采用salt-ssh协议执行命令(没有minion) salt-ssh '*' -r '

memcached 安装与简单实用使用

一.简介 1.memcache与memcached的区别与联系: memcache是php的拓展,memcached是客户端,复杂的说:Memcache模块提供了于memcached方便的面向过程及面向对象的接口,memcached是为了降低动态web应用 从数据库加载数据而产生的一种常驻进程缓存产品. 二.安装 Windows 64位 memcached下载地址:http://www.urielkatz.com/projects/memcached-win64/memcached-win64.