Spark SQL是处理结构化的数据

Spark SQL是处理结构化的数据,可以存储在二维表中,类似数据库中的表一样存储数据

Spark1.x

val sqlContext = new SparkContext(conf)

val sqlContext = new SQLContext(sc)

//将RDD和Schema信息关联到一起,1,RDD和case class 2,RDD和StructType

//case class Person将RDD中的数据转换成case class 属性相对应的类型,然后设置到case class中

val rdd:RDD[Person] = ....

//将RDD转换成DataFrame

val df = rdd.toDF

//对df进行操作(1,直接使用DataFrame上的算子DSL。2,写SQL)

//将df注册成临时表

df.registerTempTable("t_person")

//执行SQL

val result :DataFrame = sqlContext.sql("select * from t_person");

result.show()

Spark2.x

val spark = SparkSession.builder().appName("a").master("local[*]").getOrCreate()

//创建DF

val df = spark.createDataFrame(RDD[Row], schema)

//DSL 和 SQL

df.createTempView("v_user")

//执行SQL

val result:DataFrame = spark.sql("select * from t_user")

//执行action

result.show()

//

原文地址:https://www.cnblogs.com/cindy-zl24/p/11621540.html

时间: 2024-10-09 22:03:30

Spark SQL是处理结构化的数据的相关文章

spark sql 中的结构化数据

1. 连接mysql 首先需要把mysql-connector-java-5.1.39.jar 拷贝到 spark 的jars目录里面: scala> import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.SQLContext scala> val sqlContext=new SQLContext(sc)warning: there was one deprecation warning; re-run with

淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道

时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了“数据就是业务本身”的地步.这种趋势已经让很多相信数据之力量的企业做出改变.恰逢此时,为了让更多的人了解和使用分析大数据,CSDN独家承办的大数据技术大会于今日在北京中旅大厦召开.本次大会汇集Hadoop.NoSQL.数据分析与挖掘.数据仓库.商业智能以及开源云计算架构等诸多热点话题.包括百度.淘宝.新浪等业界知名专家与参会者齐聚一堂,共同探讨大数据浪潮下的行业应对法则以及大数据时代的抉择. 淘

PL/SQL Developer中表结构、表数据的导出和导入

导出表结构: Tools(工具)-->Export User Objects(导出用户对象) -->选择要导出的表(包括Sequence等)-->.sql文件,导出的都为sql文件 导出表数据: Tools(工具)-->Export Tables(导出表)-->选择表,选择SQL Inserts(SQL 插入)-->.sql文件 导入表结构: 执行刚刚导出的sql文件,记住要删掉table前的用户名,比如以前这表名为sys.tablename,必须删除sys 导入表数据

专利:结构化大数据通信协议(2)

说明2:数据的唯一性是实现"数据全球通"的基础 在班.组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,重名的很多,因此仅靠姓名就不能准确无误地识别出每一个人.大数据时代以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据.在大数据环境中,有关人的所有数据都必须含有"身份证号",这是为了表明数据的唯一性. 关系数据库用"ID&

专利:结构化大数据通信协议

发明专利技术 结构化大数据通信协议 发明人:樊永正 [email protected] 技术领域 结构化大数据通信协议是一种通信协议,也是一种让数据成为合格的结构化大数据的技术.结构化大数据通信协议也类似于ETL,ETL是处理现有的信息系统所产生的数据的问题,而结构化大数据通信协议是在设计信息系统之初就开始预防数据产生问题.ETL是为数据治病,结构化大数据通信协议是预防数据产生疾病.ETL是对现有技术所产生的问题进行小修小补,结构化大数据通信协议提出了新的数据处理方案.结构化大数据通信协议也是一

SQL复制表结构或表数据

需求: 软件开发过程中,一般会部署两个数据库:一个测试数据库提供给开发和测试过程使用:一个运维数据库提供上线使用.当需求变化需增加表时,会遇到数据库表结构或表数据同步的问题,这时就要复制表结构或表数据. 两种情形: 一.两个数据库部署在同一服务器上: 从数据库A复制到B: 复制表结构和数据:select * into  数据库B.dbo.Department from 数据库A.dbo.Department 只复制表结构:  select * into  数据库B.dbo.Department

PL/SQL Developer 导出表结构和表数据

导出表结构 1. 打开pl/sql客户端(导出数据表结构)--在左侧 点击tabales 2 Tools-->Export User Objects 3. 红色1 是你要选择导出的表,红色2 是你要导出到.sql文件 存放到自己电脑位置,红色三就是导出的意思,做完这一步就已经把数据表的结构导出来了 导出表数据 1.打开pl/sql客户端 在左侧 点击tabales,然后 Tools-->Exports Tables 2. 主意红色的部分,导出文件后缀为.sql

12.spark sql之读写数据

简介 ??Spark SQL支持多种结构化数据源,轻松从各种数据源中读取Row对象.这些数据源包括Parquet.JSON.Hive表及关系型数据库等. ??当只使用一部分字段时,Spark SQL可以智能地只扫描这些字段,而不会像hadoopFile方法一样简单粗暴地扫描全部数据. Parquet ??Parquet是一种流行的列式存储格式,可以高效地存储具有嵌套字段的记录.Parquet自动保存原始数据的类型,当写入Parquet文件时,所有的列会自动转为可空约束. scala // Enc

Spark 官方文档(5)——Spark SQL,DataFrames和Datasets 指南

Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化.可以通过SQL.DataFrames API.Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理.用户可以根据自己喜好,在不同API中选择合适的进行处理.本章中所有用例均可以在spark-shell.pyspark shel