spark sql学习

英文学习篇

http://spark.apache.org/docs/latest/sql-programming-guide.html

可以对照官方的API进行对照

http://spark.apache.org/docs/latest/api/scala/index.html

中文学习篇

http://demo.netfoucs.com/book_mmicky/article/details/39177041

spark sql学习汇总篇

http://blog.csdn.net/pelick/article/details/37809681

时间: 2024-11-08 21:44:52

spark sql学习的相关文章

Spark SQL学习记录

HDFS YARN YARN架构:1个RM(ResourceManager)主节点+N个NM(NodeManager)从节点ResourceManager职责:一个集群active状态的RM只有一个,负责整个集群额资源管理和调度1.处理客户端的请求(启动或杀死一个作业)2.启动/监控ApplicationMaster(一个作业对应一个AM)3.通过心跳监控NM4.系统的资源分配和调度 NodeManager职责:整个集群中有N个节点,负责单个节点的资源管理和使用以及task的运行1.定期向RM汇

Spark SQL 中 dataFrame 学习总结

dataFrame多了数据的结构信息.就是schema. RDD是分布式的 Java对象的集合.DataFrame是分布式的Row对象的集合. DataFrame 提供了详细的结构信息,可以让sparkSQL清楚的知道数据集中包含哪些列,列的名称和类型各是什么? RDD是分布式的 Java对象的集合.DataFrame是分布式的Row对象的集合.DataFrame除了提供了 比RDD更丰富的算子以外,更重要的特点是提升执行效率.减少数据读取以及执行计划的优化,比如 filter下推.裁剪等. 提

Spark 学习笔记:(三)Spark SQL

参考:https://spark.apache.org/docs/latest/sql-programming-guide.html#overview http://www.csdn.net/article/2015-04-03/2824407 Spark SQL is a Spark module for structured data processing. It provides a programming abstraction called DataFrames and can als

Spark SQL和DataFrame的学习总结

1.DataFrame 一个以命名列组织的分布式数据集.概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化.在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame.spark 通过DataFrame操作大量的数据源,包括外部文件(如 json.avro.parquet.sequencefile 等等).hive.关系数据库.cassandra等. DataFrame与RDD区别: RDD以

【Spark深入学习 -14】Spark应用经验与程序调优

----本节内容------- 1.遗留问题解答 2.Spark调优初体验 2.1 利用WebUI分析程序瓶颈 2.2 设置合适的资源 2.3 调整任务的并发度 2.4 修改存储格式 3.Spark调优经验 3.1 Spark原理及调优工具 3.2 运行环境优化 3.2.1 防止不必要的分发 3.2.2 提高数据本地性 3.2.3 存储格式选择 3.2.4 选择高配机器 3.3 优化操作符 3.3.1 过滤操作导致多小任务 3.3.2 降低单条记录开销 3.3.3 处理数据倾斜或者任务倾斜 3.

【Spark深入学习 -16】官网学习SparkSQL

----本节内容-------1.概览        1.1 Spark SQL        1.2 DatSets和DataFrame2.动手干活        2.1 契入点:SparkSession        2.2 创建DataFrames        2.3 非强类型结果集操作        2.4 程序化执行SQL查询        2.5 全局临时视图        2.6 创建DataSets        2.7 与RDD交互操作        2.8 聚集函数3.Sp

【Spark深入学习 -13】Spark计算引擎剖析

----本节内容------- 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark on Yarn运行流程 2.5 WordCount执行原理 3.Spark计算引擎原理 3.1 Spark内部原理 3.2 生成逻辑执行图 3.3 生成物理执行图 4.Spark Shuffle解析 4.1 Shuffle 简史 4.2  Spark Shuffle ·Shuffle Write

【Spark深入学习 -10】基于spark构建企业级流处理系统

----本节内容------- 1.流式处理系统背景 1.1 技术背景 1.2 Spark技术很火 2.流式处理技术介绍 2.1流式处理技术概念 2.2流式处理应用场景 2.3流式处理系统分类 3.流式处理技术关键技术 3.1流式处理系统管道构建 3.2流式处理系统关键技术 3.3用户行为分析系统介绍 4.问题答疑 5.参考资料 --------------------- 1.流式处理技术 1.1 技术背景 业务驱动技术发展,脱了了业务的技术,最多就是一个研究性的东西,流式处理技术的火爆源于业内

【Spark深入学习-11】Spark基本概念和运行模式

----本节内容------- 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 2.2Hadoop计算框架介绍 3.Spark概述 3.1 Spark出现的技术背景 3.2 Spark核心概念介绍 4.Spark运行模式 4.1.Spark程序组成 4.2.Spark运行模式 5.参考资料 --------------------- 1.大数据基础 1.1 大数据平台基本框架