spark定制之五：使用说明

背景

spark-shell是一个scala编程解释运行环境，能够通过编程的方式处理逻辑复杂的计算，但对于简单的类似sql的数据处理，比方分组求和，sql为”select g,count(1) from sometable group by g”，须要写的程序是：

val hive = neworg.apache.spark.sql.hive.HiveContext(sc)

import hive._

val rdd = hql(“selectg,count(1) from sometable group by g”)

rdd.collect

看起来繁琐。对于仅仅注重业务数据的人来说，附加了过多的spark工具的内容。

让提交sql命令easy

用spark-shell的-i參数设定启动脚本，能够省去hive变量定义和import两句。

用面向对象编程把后两句能够合并变为hql(“select g,count(1) from sometable group by g”).collect。

用scala隐形转换再简单为“selectg,count(1) from sometable group by g”.hqlgo。

用scala省略括号特性，能够写成“selectg,count(1) from sometable group by g” hqlgo。

简化后的语句：“select g,count(1) from sometable group by g”
hqlgo

假设分多行写能够写成：

“””

selectg,count(1)

from sometable

group by g

“”” hqlgo

让结果保存easy

查询结果保存须要写的程序：

val rdd = hql(“selectg,count(1) from sometable group by g”)

rdd.saveAsTextFile(“hdfs:/somedir”)

同上面的sql提交类似，简化后的语句：“select g,count(1) from sometable group by g”saveto “hdfs:/somedir”

多行形式：

“””

selectg,count(1)

from sometable

group by g”””saveto “hdfs:/somedir”

注：

1）多行写时saveto与前面不能再分行。后面的路径也不能再分行

2）假设保存到本地文件，文件应包括扩展名后缀

3）原spark实现的输出格式有问题，hive不能正确解析数据结构，新改的定制版已解决

让读取文件创建内存表easy

对hdfs中的数据进行sql，假设想在hive中创建表则用”create externaltable ...” hqlgo就可以；假设仅仅创建内存表做数据处理，须要写的程序：

val rdd =sc.textFile(“hdfs:/somedir”)

case class SomeClass(name:String,age:Int,weight:Double)

val schemardd = rdd.map(_.split("\t")).map(t=>SomeClass (t(0),t(1),t(2)))

hive.registerRDDAsTable(schemardd,"sometable")

hql(“selectg,count(1) from sometable group by g”).collect

简化后的语句：

"create table sometable (name string,age int,weightdouble)"from "hdfs:/somedir"

“selectg,count(1) from sometable group by g” hqlgo

多行形式：

“””

create tablesometable (

name string,

age int,

weight double)

“”” from"hdfs:/somedir"

“selectg,count(1) from sometable group by g” hqlgo

注：

1）”create table ”需严格按此写，create后、table后必须有一个空格

2）输出路径为了避免覆盖大的文件夹，全路径字符长度必须大于等于24个字符

结果检查

计算结果可能是数据表、也可能输出到文件。

数据表检查：”sometable” isok

文件检查：”somefile.txt” isok

“hdfs:/somedir” isok

推断的标准是文件不为空，长度大小大于0；路径不为空。以下存在长度大于的文件；数据表记录条数大于0。

注：

1）文件应包括扩展名后缀，在输入的字符串中假设包括“.”、“/”则觉得是文件或文件夹，不包括觉得是数据表

2）假设想把查询结果保存到内存用val data = "select * from testperson" hqlresult，查看内存中查询的结果用do show data

定制spark的启动

/sysdir/spark-1.0.0/bin/myspark

输入help能够得到帮助。

Spark定制的启动shell脚本：http://blog.csdn.net/hyalone2010/article/details/37566699

spark定制的start.scala：http://blog.csdn.net/hyalone2010/article/details/37567203

时间： 2024-12-15 02:00:53

spark定制之五：使用说明的相关文章

spark定制之六：sql版start.scala

上个版本的start.scala用的是HiveContext,这个是SQLContext的,不需编译. # cat testperson.txt #字段用table键分隔 zs 10 30.0 li 12 32.0 # spark-shell -i:start.scala scala> help 根据提示逐步运行 import org.apache.spark.sql.SchemaRDD var FIELD_SEPERATOR = "\t" var RECORD_SEPERATO

Spark定制班第4课：Spark Streaming的Exactly-One的事务处理和不重复输出彻底掌握

本篇文章主要从二个方面展开: 本期内容 1 Exactly Once 2 输出不重复 1 Exactly Once 事务: 银行转帐为例,A用户转笔账给B用户,如果B用户没收到账,或者收到多笔账,都是破坏事务的一致性.事务处理就是,能够处理且只会处理一次,即A只转一次,B只收一次. 从事务视角解密SparkStreaming架构: SparkStreaming应用程序启动,会分配资源,除非整个集群硬件资源崩溃,一般情况下都不会有问题.SparkStreaming程序分成而部分,一部分是Drive

Spark定制班第2课：通过案例对Spark Streaming透彻理解三板斧之二：解密Spark Streaming运行机制和架构

本期内容: 1 解密Spark Streaming运行机制 2 解密Spark Streaming架构 1 解密Spark Streaming运行机制我们看看上节课仍没有停下来的Spark Streaming程序运行留下的信息. 这个程序仍然在不断地循环运行.即使没有接收到新数据,日志中也不断循环显示着JobScheduler.BlockManager.MapPartitionsRDD.ShuffledRDD等等信息.这些都是Spark Core相关的信息.其循环的依据,也就是时间这个维度.

Spark定制班第5课：基于案例一节课贯通Spark Streaming流计算框架的运行源码

本期内容: 1 在线动态计算分类最热门商品案例回顾与演示 2 基于案例贯通Spark Streaming的运行源码 1 在线动态计算分类最热门商品案例回顾与演示我们用Spark Streaming+Spark SQL来实现分类最热门商品的在线动态计算.代码如下: package com.dt.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.sql.Row import org.apache.sp

【Spark深入学习 -14】Spark应用经验与程序调优

----本节内容------- 1.遗留问题解答 2.Spark调优初体验 2.1 利用WebUI分析程序瓶颈 2.2 设置合适的资源 2.3 调整任务的并发度 2.4 修改存储格式 3.Spark调优经验 3.1 Spark原理及调优工具 3.2 运行环境优化 3.2.1 防止不必要的分发 3.2.2 提高数据本地性 3.2.3 存储格式选择 3.2.4 选择高配机器 3.3 优化操作符 3.3.1 过滤操作导致多小任务 3.3.2 降低单条记录开销 3.3.3 处理数据倾斜或者任务倾斜 3.

Spark SQL

和Hive SQL演变而来,有很多相似之处: 挖坑待做: Spark入门之五:SparkSQL的原理以及架构

第82课：Spark Streaming第一课：案例动手实战并在电光石火间理解其工作原理

本期内容: 1.Spark Streaming 动手实战演示 2.闪电般理解Spark Streaming原理案例动手实战并在电光石火间理解其工作原理流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流:既然是数据流处理,就会想到数据的流入.数据的加工.数据的流出. 日常工作.生活中数据来源很多不同的地方.例如:工业时代的汽车制造.监控设备.工业设备会产生很多源数据:信息时代的电商网站.日志服务器.社交网络.金融交易系统.黑客攻击.垃圾邮件.交通监控等:通信时代的手机.

IMF传奇行动第82课：Spark Streaming第一课：案例动手实战并在电光石火间理解其工作原理

流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流:既然是数据流处理,就会想到数据的流入.数据的加工.数据的流出. 日常工作.生活中数据来源很多不同的地方.例如:工业时代的汽车制造.监控设备.工业设备会产生很多源数据:信息时代的电商网站.日志服务器.社交网络.金融交易系统.黑客攻击.垃圾邮件.交通监控等:通信时代的手机.平板.智能设备.物联网等会产生很多实时数据,数据流无处不在. 在大数据时代SparkStreaming能做什么? 平时用户都有网上购物的经历,用户在

Dream_Spark版本定制第一课

从今天起,我们踏上了新的Spark学习旅途.我们的目标是要像Spark官方机构那样有能力去定制Spark. 一．我们最开始将从Spark Streaming入手. 为何从Spark Streaming切入Spark定制?Spark的子框架已有若干,为何选择Spark Streaming?让我们细细道来. 1. Spark最开始只有Spark Core,没有目前的这些子框架.这些子框架是构建于Spark Core之上的.没有哪个子框架能摆脱Spark Core.我们通过对一个框架的彻底研究,