Spark SQL的官网解释

一.官网位置

1.位置

2.解释

官网位置 DataSet1.6出现的
SchemaRDD < 1.3    1.3版本前叫 SchemaRDD   1.3以后 叫DataFrame
DataSet支持 Scala , JAVA 不支持python
DataFrame 支持四种 JAVA,Scala.Python,R
DataFrame:并不是spark sql独创的,原来就有的,从其他框架借鉴过来的

二.DataFrame 注意事项

1.注意

分布式的数据集
按列进行组织的
就是等于关系型数据库总的一张表
DataFrame=DataSet[Row] 类型是Row

三.DataFram 与RDD的区别

1.定义层面

RDD定义里面有泛型 RDD[person ]  RDD不知道Person里面有什么的
DataFrame  不一样 ,里面是张表,所以暴露的信息多


2.底层方面

RDD开发各种语言有各自的运行环境,所以性能不一样,差异很大,但是DataFrame 是统一都经
过计划,在执行,不用管语言开发,性能差不多

3.API方面

DataFrame   比RDD 更加丰富

三.其余注意事项

1.注意点

Spark SQL入口点   2.0版本
    <2: SQLContext   HiveContext
    >=2: SparkSession
spark-shell  启动会默认启动sc,spark 两个  SparkContext,SparkSession
spark.read.json() 不推荐
可以这样写
   spark.read.format("json").load(path)
   spark.read.format("text").load(path)

2.支持hive模式代码

  val spark = SparkSession.builder()
      .appName("Test")
      .master("local[2]")
      .enableHiveSupport() //支持hive
      .getOrCreate()

原文地址:https://blog.51cto.com/12839321/2464398

时间: 2024-08-30 09:02:42

Spark SQL的官网解释的相关文章

spark program guide 官网翻译

概述 Spark 应用由driver program 组成,driver program运行用户的主函数,在集群内并行执行各种操作 主要抽象RDD: spark提供RDD,是贯穿整个集群中所有节点的分区元素的集合,能够被并行操作. RDDS来源: 1.Hadoop文件系统或支持Hadoop的文件系统中操作一个文件 2.driver program中已存在的scala集合 3.从另一个RDD转换得到 主要抽象shared variables共享变量: 共享变量也可以被并行操作 默认的,当spark

Dom4j官网解释实例

Dom4j是一个易于使用的,开源的库,在Java平台上与XML,XPath,XSLT协同工作.使用Java集合框架,全面支持DOM,SAX,JAXP. 官方网站:http://dom4j.org 1.将XML文件转换为一个Document对象 import java.net.URL; import org.dom4j.Document; import org.dom4j.DocumentException; import org.dom4j.io.SAXReader; public class

Spark SQL and DataFrame Guide(1.4.1)——之Data Sources

数据源(Data Sources) Spark SQL通过DataFrame接口支持多种数据源操作.一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表. 1. 通用的Load/Save函数 默认的数据源适用所有操作(可以用spark.sql.sources.default设置默认值) 之后,我们就可以使用hadoop fs -ls /user/hadoopuser/在此目录下找到namesAndFavColors.parquet文件. 手动指定数据源选项 我们可以手动指定数据源

【Spark深入学习 -16】官网学习SparkSQL

----本节内容-------1.概览        1.1 Spark SQL        1.2 DatSets和DataFrame2.动手干活        2.1 契入点:SparkSession        2.2 创建DataFrames        2.3 非强类型结果集操作        2.4 程序化执行SQL查询        2.5 全局临时视图        2.6 创建DataSets        2.7 与RDD交互操作        2.8 聚集函数3.Sp

《Spark Python API 官方文档中文版》 之 pyspark.sql (一)

摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少.每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需,所以利用闲暇之余将官方文档翻译为中文版,并亲测Demo的代码.在此记录一下,希望对那些对Spark感兴趣和从事大数据开发的人员提供有价值的中文资料,对PySpark开发人员的工作和学习有所帮助. 官网地址:http://spark.apache.org/docs/1.6.2/api/python/p

以慕课网日志分析为例 进入大数据 Spark SQL 的世界

详情请交流  QQ  709639943 01.以慕课网日志分析为例 进入大数据 Spark SQL 的世界 02.漫谈spring cloud分布式服务架构 03.Spring Cloud微服务实战视频课程 04.漫谈spring cloud 与 spring boot 基础架构 05.Java秒杀系统方案优化 高性能高并发实战 06.Java深入微服务原理改造房产销售平台 07.快速上手Linux 玩转典型应用 08.快速上手Ionic3 多平台开发企业级问答社区 09.Java Sprin

Spark--&gt;combineByKey【请阅读Apache spark官网文档】

这篇文章,很有必要看,写的不错.但是看过后,不要忘记查看Apache spark官网.因为这篇文章理解还是和源码.官网文档 不一致.有一点错误![cnblogs的代码编辑器 不支持Scala,所以 语言的关键字 没有高亮显示] 在数据分析中,处理Key,Value的Pair数据是极为常见的场景,例如我们可以针对这样的数据进行分组.聚合或者将两个包含Pair数据的RDD根据key进行join.从函数的抽象层面看,这些操作具有共同的特征,都是将类型为RDD[(K,V)]的数据处理为RDD[(K,C)

CK2255-以慕课网日志分析为例 进入大数据 Spark SQL 的世界

新年伊始,学习要趁早,点滴记录,学习就是进步! 随笔背景:在很多时候,很多入门不久的朋友都会问我:我是从其他语言转到程序开发的,有没有一些基础性的资料给我们学习学习呢,你的框架感觉一下太大了,希望有个循序渐进的教程或者视频来学习就好了.对于学习有困难不知道如何提升自己可以加扣:1225462853  获取资料. 下载地址:https://pan.baidu.com/s/1hsU5EIS 以慕课网日志分析为例 进入大数据 Spark SQL 的世界 本课程以"慕课网日志分析"这一大数据应

Spark 的官网(版本为1.6.1的总官网)

1. 多多读官网,所有的只知识点都可以从上面的总纲中查到.