flare-spork: 自己维护的Pig on Spark项目

关于flare-spork

很早以前有个Pig Spork分支,尝试把Pig迁移到Spark上,但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。

flare-spork是基于Spork对Pig和Spark的衔接,把Spark部分的代码迁移到了Pig 0.12.0上,并且升级了依赖和版本,升级为Scala 2.10.3,Spark 0.9.1,且兼容Hadoop 2.2.0。

目前项目在Github上,地址。打算参考Spork已经做的一些东西,继续Pig on Spark的开发。

Github上的内容已经是merge进Pig 0.12.0的Spork版本了,可以编译和运行。更多细节的内容可以参考里面的README。有介绍如何编译,有什么改变,能跑什么样的简单demo。

时间: 2024-08-05 15:20:10

flare-spork: 自己维护的Pig on Spark项目的相关文章

Spork: Pig on Spark实现分析

介绍 Spork是Pig on Spark的highly experimental版本,依赖的版本也比较久,如之前文章里所说,目前我把Spork维护在自己的github上:flare-spork. 本文分析的是Spork的实现方式和具体内容. Spark Launcher 在hadoop executionengine包路径下,写了一个Spark启动器,同MapReduceLauncher类似,会在launchPig的时候,把传入的物理执行计划进行翻译. MR启动器翻译的是MR的操作,以及进一步

谈谈近两年维护的一个最最坑爹项目

做程序员这一行的,最怕的就是维护公司曾经旧的项目,这些项目往往都有着文档缺少.数据混乱.代码混乱.凝视极少.历经多个维护人员等一些问题.最近楼主维护了一个非常极品的项目,堪称这两年来维护的最最极品项目,以下来讲讲心得体会. 首先.当我从svn上check out完项目代码时.我TM的惊呆了,竟然是编译公布过的,是的,没有源码,仅仅有aspx文件和dll,没有源码怎么改bug.tmd还要加功能.卧槽.让我在编译过的.一点都不熟悉的.看了几百行代码没见到凝视的项目里加功能?我勒个去,问领导.领导平静

7种最常见的Hadoop和Spark项目

7种最常见的Hadoop和Spark项目 如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像. 有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情.如比较火爆的Hadoop.Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式.具体的实施可能有所不同,但根据我的经验,它们是最常见的七种项目. 项目一:数据整合 称之为"企业级数据中心

如何构建第一个Spark项目代码

如何构建第一个Spark项目代码 环境准备 本地环境 操作系统 Window7/Mac IDE IntelliJ IDEA Community Edition 14.1.6 下载地址 JDK 1.8.0_65 下载地址 Scala 2.11.7 下载地址 其它环境 Spark:1.4.1 下载地址 Hadoop Yarn:Hadoop 2.5.0-cdh5.3.2 IDE项目创建 新建一个项目 New Project 使用Maven模型创建一个Scala项目 填写自己的GroupId.Artif

大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)

大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据.近似实时数据和实时数据.按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性: 计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算.而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实

Linux系统Oracle12.2 RAC集群实施维护_Oracle数据库12cR2(项目实战之五)

课程目标 风哥Oracle数据库教程12cR2(项目实战系列)之五:Linux系统上Oracle 12.2 RAC实施与基本维护,包括系统安装与环境配置.ASM存储配置.Oracle 12cR2 RAC集群软件安装.RAC数据库软件安装.RAC数据库创建.RAC集群日常维护.RAC集群测试.RAC归档配置 适用人群 IT技术人员,IT初级工程师,系统管理员,网络管理员,主机工程师,数据库工程师 课程简介 课程介绍 Linux系统Oracle RAC 12c R2数据库安装(一体机集群项目)_风哥

利用docker 部署 spark项目的端口问题

利用Docker  安装项目: local模式要设置sparklocal.spark.driver.host yarn模式中只设置sparklocal.spark.driver.host和可以启动,但是无法执行任何语句,需要再设置 sparkyarn.spark.driver.bindAddress 和 blockmanager 即可,在spark启动时指定对应host和bindaddress,docker指定访问设定的host和bindAddress 和 blockmanager即可 注意:s

IDEA中打包Spark项目提示Error:(16, 48) java: -source 1.5 中不支持 lambda 表达式

在idea中新建了一Spark的项目,在做项目的编译打包的时候,提示如下错误信息: Error:(16, 48) java: -source 1.5 中不支持 lambda 表达式 (请使用 -source 8 或更高版本以启用 lambda 表达式) 解决方法是: 第一步: File --> Project Stucture 选择项目设置Lanugage level, 如下图所示 第二步: File --> Settings --> Compiler --> Java Compi

Spark项目之电商用户行为分析大数据平台之(九)表的设计

一.概述 数据设计,往往包含两个环节: 第一个:就是我们的上游数据,就是数据调研环节看到的项目基于的基础数据,是否要针对其开发一些Hive ETL,对数据进行进一步的处理和转换,从而让我们能够更加方便的和快速的去计算和执行spark作业: 第二个:就是要设计spark作业要保存结果数据的业务表的结构,从而让J2EE平台可以使用业务表中的数据,来为使用者展示任务执行结果. 二.MySQL表设计 2.1 session_aggr_stat表 存储第一个功能,session聚合统计的结果 CREATE