【赵强老师】在Spark SQL中读取JSON文件

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？如果大家了解Hive的话，应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！同时Spark SQL也支持从Hive中读取数据。

Spark SQL也能自动解析JSON数据集的Schema，读取JSON数据集为DataFrame格式。读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的RDD或JSON文件转换为DataFrame。

需要注意的是，这里的JSON文件不是常规的JSON格式。JSON文件每一行必须包含一个独立的、自满足有效的JSON对象。如果用多行描述一个JSON对象，会导致读取出错。

需要用到的测试数据：people.json

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

定义路径

val path ="/root/temp/people.json"

读取Json文件，生成DataFrame：

val peopleDF = spark.read.json(path)

打印Schema结构信息

peopleDF.printSchema()

创建临时视图

peopleDF.createOrReplaceTempView("people")

执行查询

spark.sql("SELECT name FROM people WHERE age=19").show

原文地址：https://www.cnblogs.com/collen7788/p/12636672.html

时间： 2024-08-28 01:44:53

【赵强老师】在Spark SQL中读取JSON文件的相关文章

jQuery中读取json文件示例代码

json文件是一种轻量级的数据交互格式.一般在jquery中使用getJSON()方法读取,具体示例代码如下,感兴趣的朋友可以参考下哈,希望可以帮助到你 json文件是一种轻量级的数据交互格式.一般在jquery中使用getJSON()方法读取. 复制代码代码如下: $.getJSON(url,[data],[callback]) url:加载的页面地址 data: 可选项,发送到服务器的数据,格式是key/value callback:可选项,加载成功后执行的回调函数 1.首先建一个JSON

Oracle中的游标（光标）--来自Oracle赵强老师

表.select语句.游标:返回结果都能是一个集合. 注意:游标的结果是一个集合. --查询并打印员工的姓名和薪水 set serveroutput on /* 光标: 1. 光标的属性: %isopen %rowcount(返回的行数) %notfound %found 2. 默认情况下,一次性打开300个光标 SQL> show parameter cursor NAME TYPE VALUE ------------------------------------ ---------

赵强老师：免费实战微课系列课程

赵强老师实战微课系列课程 Oracle数据库.大数据.Weblogic中间件永久免费!!! (*)赵强老师实战微课之一:在Oracle SQL*PLUS中修改SQL语句 http://edu.51cto.com/course/course_id-9016.html (*)赵强老师实战微课之二:搭建Hadoop的Eclipse开发环境 http://edu.51cto.com/course/course_id-9017.html (*)赵强老师实战微课之三:使用Weblogic Console生

Spark SQL 中 dataFrame 学习总结

dataFrame多了数据的结构信息.就是schema. RDD是分布式的 Java对象的集合.DataFrame是分布式的Row对象的集合. DataFrame 提供了详细的结构信息,可以让sparkSQL清楚的知道数据集中包含哪些列,列的名称和类型各是什么? RDD是分布式的 Java对象的集合.DataFrame是分布式的Row对象的集合.DataFrame除了提供了比RDD更丰富的算子以外,更重要的特点是提升执行效率.减少数据读取以及执行计划的优化,比如 filter下推.裁剪等. 提

spark sql中进行sechema合并

spark sql中支持sechema合并的操作. 直接上官方的代码吧. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // sqlContext from the previous example is used in this example. // This is used to implicitly convert an RDD to a DataFrame. import sqlContext.implicits._

（赵强老师原创）搭建CDH实验环境，三个节点的安装配置

赵强老师简介 ------------------------------------------------------- 清华大学软件工程专业毕业.现就职于Oracle(中国)有限公司高级技术顾问,在Oracle公司服务已超过10年.业界知名的Oracle数据库专家和大数据专家,精通Oracle数据库.大数据.Weblogic中间件和Java技术.同时,受聘于多家知名IT培训机构,线下培训的学员已超过万人. 赵强老师在线视频课程主页 http://edu.51cto.com/lecturer

Hadoop大数据赵强老师免费公开课招募啦~~~~

Hadoop大数据公开课招募啦~~~ 赵强老师免费公开课 l 时间:2017年03月14号晚19:30-21:00 n 19:30-20:30讲述Hadoop的背景知识,包括:大数据背景.数据仓库.Hadoop的思想来源(Google的三大思想) n 20:30-21:00答疑 l 讲师简介 13年IT行业从业经历,清华大学计算机硕士,曾在BEA.甲骨文.摩托罗拉等世界500强公司担任高级软件架构师或咨询顾问等要职,精通大数据.数据库.中间件技术和Java技术. 讲师详情链接:http:

Spark SQL中Dataframe join操作含null值的列

当在Spark SQL中对两个Dataframe使用join时,当作为连接的字段的值含有null值.由于null表示的含义是未知,既不知道有没有,在SQL中null值与任何其他值的比较(即使是null)永远不会为真.故在进行连接操作时null == null不为True,所以结果中不会出现该条记录,即左侧表格的这条记录对应右侧的值均为null.示例如下: table_a: date serverId lvSection 2018-03-04 1 10 2018-03-05 null 9 2018

Spark SQL中出现 CROSS JOIN 问题解决

Spark SQL中出现 CROSS JOIN 问题解决 1.问题显示如下所示: Use the CROSS JOIN syntax to allow cartesian products between these relation 2.原因: Spark 2.x版本中默认不支持笛卡尔积操作 3.解决方案: 通过参数spark.sql.crossJoin.enabled开启,方式如下: spark.conf.set("spark.sql.crossJoin.enabled"

猜你喜欢

SSH框架配置释义

? 创建一个bean, 依赖注入支持的不同注入方式及具体配置方法属性注入通过setter()方法注入bean的属性或者依赖对象.属性注入要求bean需要提供一个默认构造函数和对应的setter方法 ...

改变从现在开始

2017-06-16 咳嗽很严重说话也说不了,痰里带血,吓死宝宝了还以为得了肺结核.所以请了一天假去医院检查,花了一上午的时间就在排队.检查中渡过,还好没啥问题这两天注意休息,下午就开始思考人生. 庸 ...

SQLserver中用convert函数转换日期格式

SQLserver中用convert函数转换日期格式2008-01-15 15:51SQLserver中用convert函数转换日期格式 SQL Server中文版的默认的日期字段datetime格式 ...

【spoj705】 Distinct Substrings

[题目描述] 给定一个字符串,计算其不同的子串个数. [输入格式] 一行一个仅包含大写字母的字符串,长度<=50000 [输出格式] 一行一个正整数,即不同的子串个数. [样例输入] ABABA ...

SQL_触发器的总结

常见的触发器有三种:分别应用于Insert,Update,Delete事件创建触发器:create trigger tr_nameon table/view{for|on|after|instead ...

java将图片转换成二进制

package com.oumyye.图片; import java.awt.image.BufferedImage; import java.io.ByteArrayInputStream; imp ...

Linux ftp命令的使用方法 -- 转

http://jingyan.baidu.com/article/066074d68b6a7ac3c21cb038.html FTP(File Transfer Protocol, FTP)是TCP/ ...

xHtml+css学习笔记

第一节 xHTML规范 *文档方面 -必须定义文档类型(DTD)和名字控件 *标签方面 -所有标签均要小写.关闭.合理嵌套.ID不能重复 -标签属性药有值,属性值要加印号且不能为空 -图片一定要加上a ...

讲个笑话,我样例过了. 恩3道水题我一共就得了84分,很强势. T1莫名WA,T2策略错误,T3超时,然而T2的数据是多水...最后两组数据用错误的策略还能过... T1听老师说是一道分治+递归引用, ...

mfc dialog用法

CDialogThe CDialog class is the base class used for displaying dialog boxes on the screen. Dialog bo ...

samba服务，连接远程开发机

到了新环境,自己的开发机需要通过跳板机连,每次登录跳板机都需要RSA动态密码.一开始让我迷惑的是,这有个跳板机,那怎么让本地代码和开发机代码同步呢.以前公司的情况,一个是不需要跳板机,在phpstor ...

httpd 之站点alias设置

在网站配置中,一般不同的目录都对应不同的网站,当我们要对同一个网站设置不同的网站目录时,就需要使用httpd中的Alias功能了一.创建别名目录及文件 [[email protected] biem ...

https authorization basic

/* * To change this license header, choose License Headers in Project Properties. * To change this t ...

Web开发标配--开发人员工具-F12

喜欢从业的专注,七分学习的态度. 360浏览器-开发工具谷歌-开发工具 IE-开发工具 Web开发中最最烦琐的莫过于调整CSS和JS,而最方便最高效的方式就是利用浏览器的开发工具调整.CSS可以实时 ...

CentOS6.5启动ActiveMQ报错

根据公司的实际需要,进行公司系统架构的迁移,在迁移过程中,遇到了一个很奇葩的问题:启动ActiveMQ时报错,具体信息如下: 2015-07-27 18:00:43,922 | WARN | Exc ...

Manacher算法——最长回文子串（O（n））

1 public static int Manacher(String A,int n){ 2 char AA[]=A.toCharArray(); 3 char BB[]=new char[2*n+ ...

css3自定义流动条

1 <style> 2 .item { 3 height: 180px; 4 overflow: auto; 5 width: 180px; 6 float: left; 7 margin ...

C#基础系列——反射笔记

前言:使用反射也有几年了,但是一直觉得,反这个概念很抽象,今天有时间就来总结下这个知识点. 1.为什么需要反射: 最初使用反射的时候,作为小菜总是不理解,既然可以通过new 一个对象的方式得到对象,然 ...

Blast使用详解

Blast,全称Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具",由Altschul等人于1990年发布.Blast能够实现比较 ...

unity3D绘画手册-----地形及术语解释

Unity3D教程:设置地形(Terrain) Posted on 2013年04月18日 by U3d / Unity3D 基础教程 /被围观 1,901 次新建地形: 在菜单中新建一个地形. U ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.