吴超老师课程--Pig的介绍和安装

1.Pig是基于hadoop的一个数据处理的框架。
MapReduce是使用java进行开发的，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。

2.Pig的数据处理语言是数据流方式的，类似于初中做的数学题。一步一步来的，跟SQL不一样，SQL一步就得到答案，

3.Pig基本数据类型：int、long、float、double、chararry、bytearray

复合数据类型：Map、Tuple、Bag
Bag的类型如{(‘age‘,31),(‘name‘,‘张三‘)}

4.如何安装Pig
4.1 把pig-0.11.1.tar.gz复制到/usr/local下
4.2 使用命令tar -zxvf pig-0.11.1.tar.gz解压缩
4.3 使用命令mv pig-0.11.1 pig 进行重命名
4.4 编辑文件vi /etc/profile 设置环境变量
export $PIG_HOME=/usr/local/bin
export PATH =......$PIG_HOME/bin....
保存，然后执行source /etc/profile
4.5 编辑文件$PIG_HOME/conf/pig.properties，增加两行如下内容
fs.default.name=hdfs://hadoop0:9000
mapred.job.tracker=hadoop0:9001

5.对wlan数据如何使用pig进行分析处理
5.1 把待处理的数据上传到HDFS中
5.2 把HDFS中的数据转换为pig可以处理的模式
A = LOAD ‘/wlan‘ AS (t0:long, msisdn:chararray, t2:chararray, t3:chararray, t4:chararray, t5:chararray, t6:long, t7:long, t8:long,t9:long,t10:chararray);

5.3 把里面的有用的字段抽取出来
B = FOREACH A GENERATE msisdn, t6, t7, t8, t9;

5.4 分组数据
C = GROUP B BY msisdn;

5.5 流量汇总
D = FOREACH C GENERATE group, SUM(B.t6), SUM(B.t7), SUM(B.t8), SUM(B.t9);

5.6 存储到HDFS中
STORE D INTO ‘/wlan_result‘;

时间： 2024-10-06 01:09:29

吴超老师课程--Pig的介绍和安装的相关文章

吴超老师课程--Hive的介绍和安装

1.Hive1.1在hadoop生态圈中属于数据仓库的角色.他能够管理hadoop中的数据,同时可以查询hadoop中的数据. 本质上讲,hive是一个SQL解析引擎.Hive可以把SQL查询转换为MapReduce中的job来运行. hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表.字段转换为HDFS中的文件(夹)以及文件中的列. 这套映射工具称之为metastore,一般存放在derby.mysql中. 1.2 hive在hdfs中的默认位置是

吴超老师课程---hadoop的伪分布安装

1.1 设置ip地址执行命令 service network restart 验证: ifconfig1.2 关闭防火墙执行命令 service iptables stop 验证: service iptables status1.3关闭防火墙的自动运行执行命令 chkconfig iptables off 验证: chkconfig --list | grep iptables1.4 设置主

吴超老师课程--Flume的安装和介绍

常用的分布式日志收集系统一:flume概述参考官方网址:http://flume.apache.org/documentation.htmlflume是一个分布式的数据收集系统,具有高可靠.高可用.事务管理.失败重启等功能.数据处理速度快,完全可以用于生产环境.flume的核心是agent.agent是一个java进程,运行在日志收集端,通过agent接收日志,然后暂存起来,再发送到目的地. agent里面包含3个核心组件:source.channel.sink.1 source组件是专用于收

吴超老师课程--Sqoop的安装和介绍

SQOOP是用于对数据进行导入导出的. (1)把MySQL.Oracle等数据库中的数据导入到HDFS.Hive.HBase中 (2)把HDFS.Hive.HBase中的数据导出到MySQL.Oracle等数据库中一:安装步骤1.解压.设置环境变量,略2.把mysql.............jar放到$SQOOP_HOME/lib中二:把mysql中的表复制到hdfs/hive中sqoop

吴超老师课程---hadoop的分布式安装过程

1.hadoop的分布式安装过程 1.1 分布结构主节点(1个,是hadoop0):NameNode.JobTracker.SecondaryNameNode 从节点(2个,是hadoop1.hadoop2):DataNode.TaskTracker 1.2 各节点重新产生ssh加密文件 1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息 1.4 两两节点之间的SSH免密码登陆 ss

吴超老师课程--Hive的执行语句

为什么选择Hive? (1)基于Hadoop的大数据的计算/扩展能力(2)支持SQL like查询语言(3)统一的元数据管理(4)简单编程一:Hive的数据类型(1)基本数据类型tinyint/smallint/int/bigintfloat/doublebooleanstring(2)复杂数据类型Array/Map/Struct没有date/datetime (3)Hive的数据存储Hive的数据存储基于Hadoop HDFSHive没有专门的数据存储格式存储结构主要包括:数据库.文件.表.

吴超hadoop7天视频教程全集

一.初级班全套视频 1.linux使用(3节) 2.伪分布模式安装hadoop(2节) 3.HDFS的体系结构和操作(2节) 4.HDFS的java操作方式(4节) 5.代码二.中级班全套视频 1.MapReduce入门(2节) 2.MapReduce的源码简介和自定义类型(4节) 3.mapReduce的剩余核心环节讲解(5节) 4.MapReduce的自定义排序和分组(3节) 5.hadoop的集群安装和安全模式介绍(3节) 6.代码三.高级班全套视频 1.ZooKeeper的集群安装与

先到先得买关东升老师课程满880 就送精品新书啦！

先到先得买关东升老师课程送亲笔签名新书啦! 价值99元精品新书:<从零开始学Swfit> 活动期间:2016年5月3日-5月23日 51CTO学院送书活动进行中!活动内容:活动期间(5月3日-5月23日)凡购买讲师:关东升课程.套餐累计满880元的用户均赠送由关东升老师亲笔签名的精美图书<从零开始学Swift>一本! 图书寄送: 在活动期间内购买课程请在此填写快递信息:http://home.51cto.com/info 或者联系在线客服QQ:4008519651进行登记,活

吴超Hadoop视频

本人最近在学Hadoop,,,,买了一份吴超的Hadoop视频,,,,有需要的加我QQ2806746229

猜你喜欢

django-rest-framework

注意事项: 在使用django rest framework时候由于网上资料太多,出现了由一下两个函数导致的问题: from django.views.decorators.csrf import ...

放弃了你，却从未放弃过爱你

转动在笔尖的温柔,是我对你思念的邂逅.亲吻着曾紧握过你的手,轻言放弃你,却不曾放弃过爱你,这颗脆弱临腐的心,只为你一个人守侯. ----题记都说人在绝望的时候都会产生幻觉,曾经经历的苦楚,我只在心底 ...

CentOS Linux 6.5网络及VPN Client配置

网络配置: /etc/sysconfig/network NETWORKING=yes NETWORKING_IPV6=yes HOSTNAME=localhost.localdomain GATEW ...

单机部署tomcat多个实例

一.安装tomcat虚拟主机在安装tomcat之前必须要安装jdk.他是sun公司免费提供的java语言的软件开发包,其中包含java虚拟机,从而保证了java 的跨平台性. 准备环境: 为了避 ...

cobbler安装配置脚本

#!/bin/bash yum -y install cobbler httpd cobbler-web debmirror pykickstart service cobblerd start se ...

Guest Killer安全团队

中文名来宾杀手安全团队外文名 Guest Killer Team 创建时间 2015年2月22日创始人 0nlis 来宾杀手安全团队(Guest Killer Security Team)简称G ...

iOS开发之Core Animation

1.Core Animation,核心动画,他是一组非常强大的动画处理API,可以用在MAC OSX 和iOS平台. 2.Core Animation的动画执行都是在后台操作的,不会阻塞主线程. 3. ...

列表操作

name=[1,5,9,3,2,4,7,9,5,6,2,9,9,8,55,5,5,5,2,6,9,9,89,4,22,2,999,2,2,2,54] name2=[1,3,5,7,9] name.ap ...

Java基础知识强化之集合框架笔记21：数据结构之数组和链表

1. 数组 2. 链表

php之thinkphp部署Linux

今天在学习thinkphp时遇到很多的问题,为了能够更好的学习今天抽出下午时间,对lamp环境下的开发进行了一些尝试,毕竟以前做过很多与Linux相关的工作,再加上php本身最优的搭配就是lamp环境 ...

ACM 容斥原理

VJ 点击打开链接参考点击打开链接非常好的译文:点击打开链接容斥原理的想法就是求多个集合的并集.所以要先设计好集合. 组合数学问题中,正面解决会困难,常用方法是正难则反,使用容斥原理求反向在用 ...

能被2、3、4、5、6、7、8、9整除数的特征

性质1:如果数a.b都能被c整除,那么它们的和(a+b)或差(a-b)也能被c整除. 性质2:几个数相乘,如果其中有一个因数能被某一个数整除,那么它们的积也能被这个数整除. 能被2整除的数,个位上的数 ...

转：编程的起点和可能的失足

转自:http://blog.csdn.net/leezy_2000/article/details/33349965 编程的起点和可能的失足从大环境来看,想不写程序直接去做管理工作是很难的.大多时 ...

严重: Error configuring application listener of class org.springframework.web.context.ContextLoaderList

最近在用idea部署war文件的时候,总是出现了部署失败的错误,刚开始并没有在意,但是现在次数越来越多了,不得不在意了,然后就在百度上搜,然后就有了各种说法 1,错误的信息是: One or more ...

Ubuntu 上搭建 Samba 服务器

由于经常要接收同事发送的一些文件,U盘拷来拷去的很麻烦. 在本机Ubuntu上搭了各Samba服务器,过程中遇到点小问题,记录一下 sudo apt-get install samba 创建一个共享目 ...

docker的cli的路由router

写过应用框架的都应该知道有个路由模块,来看看docker的http请求是怎么路由的 docker的server.go文件中,首先入口是New的时候 func New(cfg *Config) *Ser ...

MyBatis Geneator 详解

MyBatis Geneator详解作者:abel533(isea533) 博客地址:http://blog.csdn.net/isea533 github:https://github.com/a ...

HDU_3549_网络流（最大流）

Flow Problem Time Limit: 5000/5000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others)Tota ...

前端笔记十一，盒模型与布局相关属性

布局相关属性 float:控制目标组件是否浮动以及如何浮动,设置浮动后,该组件被当做块组件处理,即相当于display属性为block:可选的属性值 left:指定对象向左浮动 right:指定对象 ...

博识易道：银证企业ocr解决方案

最近几年,房地产疲软再加上互联网金融的强势带动,消费者投资的需求日渐增长,投资渠道也逐步丰富.这下银证行业高兴了,推出了各种政策和服务吸引投资.很多互联网金融.股票.基金的投资往往是借助移动支付.尤其 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.