spark sql 中的结构化数据

1. 连接mysql

首先需要把mysql-connector-java-5.1.39.jar 拷贝到 spark 的jars目录里面；

scala> import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.SQLContext

scala> val sqlContext=new SQLContext(sc)
warning: there was one deprecation warning; re-run with -deprecation for details
sqlContext: org.apache.spark.sql.SQLContext = [email protected]

scala> sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://localhost:3306/metastore",
     | "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "DBS", "user" -> "root", "password" -> "root")).load().show
+-----+--------------------+--------------------+-------+----------+----------+
|DB_ID|                DESC|     DB_LOCATION_URI|   NAME|OWNER_NAME|OWNER_TYPE|
+-----+--------------------+--------------------+-------+----------+----------+
|    1|Default Hive data...|hdfs://localhost:...|default|    public|      ROLE|
|    2|                null|hdfs://localhost:...|    aaa|      root|      USER|
|    6|                null|hdfs://localhost:...| userdb|      root|      USER|
+-----+--------------------+--------------------+-------+----------+----------+

时间： 2024-10-18 12:18:14

spark sql 中的结构化数据的相关文章

Spark SQL是处理结构化的数据

Spark SQL是处理结构化的数据,可以存储在二维表中,类似数据库中的表一样存储数据 Spark1.x val sqlContext = new SparkContext(conf) val sqlContext = new SQLContext(sc) //将RDD和Schema信息关联到一起,1,RDD和case class 2,RDD和StructType //case class Person将RDD中的数据转换成case class 属性相对应的类型,然后设置到case class中

【赵强老师】在Spark SQL中读取JSON文件

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用.为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢.所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL

详解Google-ProtoBuf中结构化数据的编码

原文转自:http://www.wuzesheng.com/?p=1258 本文的主要内容是google protobuf中序列化数据时用到的编码规则,但是,介绍具体的编码规则之前,我觉得有必要先简单介绍一下google protobuf.因此,本文首先会介绍一些google protobuf相关的内容,让读者朋友对google protobuf有一个初步的印象,然后,再开始进入正题—-深入浅出地介绍google protobuf中用到的编码规则.下面言归正传,开始今天的话题. 1. Googl

MySQL 5.7：非结构化数据存储的新选择

本文转载自:http://www.innomysql.net/article/23959.html (只作转载, 不代表本站和博主同意文中观点或证实文中信息) 工作10余年,没有一个版本能像MySQL 5.7那样令我激动与期盼,10月MySQL 5.7 GA版本的发布,意味着MySQL数据库终于有能力在传统企业中向商业数据库发起挑战,开源的Linux操作系统干掉了封闭的Unix系统,MySQL会不会再一次逆袭商业产品?目前来看,或许很难,但是机会已经掌握在自己上手,后面的发展就看MySQL团队能

各式结构化数据动态接入-存储-查询的处理办法（第二部分）

各式结构化数据的动态接入存储查询,这一需求相信有很多人都遇到过,随着实现技术路线选择的不同,遇到的问题出入大了,其解决办法也是大相径庭.数据存储在哪儿,是关系型数据库,还是NoSQL数据库,是MySQL还是Oracle,怎么建立索引,建立什么类型的索引,都是大学问.下面,我要把我对这一解决办法的思考总结一下,有成熟的也有不成熟的,希望大家一起共同探讨. 关键词:结构化数据, 动态, 接入, 存储, 查询首先,我们得定义一下在本文中什么是结构化数据,这里的结构化数据主要是指扁平化的.可以由基础数

如何保护非结构化数据

简单地说,数据可分为结构化数据和非结构化数据.对于非结构化的数据保护你知道怎么做吗? 下面先跟大家区分一下结构化和非结构化数据. 结构化数据,简单来说就是数据库,如MySQL\Oracle\MS SQL Server\PostgreSQL\.结合到典型场景中更容易理解,比如企业ERP.财务系统;教育一卡通;政府行政审批;其他核心数据库等.这些应用需要哪些保护方案呢?基本包括高速存储应用需求.数据备份需求.数据共享需求以及数据容灾需求. 非结构化数据,简单来说就是文档类:pdf/doc/ppt/x

结构化，半结构化，非结构化数据总结

前言: Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能.在学习Hive之前我们先了解下结构化数据,半结构化数据以及非结构化数据的区别. 1.结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据.一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的.举一个例子: id name age gender 1 lyh 12 male 2 liangyh 13 female 3 liang 18 male 所以,结构化的数

搜索引擎系列十：Solr（solrj 、索引API 、结构化数据导入）

一.SolrJ介绍 1. SolrJ是什么? Solr提供的用于JAVA应用中访问solr服务API的客户端jar.在我们的应用中引入solrj: <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</artifactId> <version>7.3.0</version> </dependency> 2. SolrJ的核

MaxCompute读取分析OSS非结构化数据的实践经验总结

摘要: 本文背景很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的.此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的. 1. 本文背景很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的.此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的.随着数据量的指数级增长,对超大文本文件的分析越来

猜你喜欢

Hibernate学习随笔

一.Hibernate的基本使用首先需要配置相应的配置文件 Hibernate基本使用步骤 1.创建org.hibernate.cfg.Configuration对象 2.调用configure方法 ...

类函数和对象函数

1. bool class_exists ( string $class_name [, bool $autoload = true ] ) 检查指定的类是否已定义. 如果由 class_name ...

sed正则经典例题

**题目:已知目标文件如下** <html> <title>First Web</title> <body> h1Helloh1 h2Helloh2 h ...

玩转Eclipse--如何使用eclipse可以更好的提高我们的工作效率

工欲善其事必先利其器,更加了解我们的开发工具有利于提高开发效率,而合理使用快捷键可以使我们事半功倍,这里收集了eclipse中的几种常见设置,eclipse的优化以及非常全面的快捷键介绍,大家有用到的 ...

openstack部署

环境准备 1.openstack部署 - 硬件要求实验环境:至少两台机器. Controller Node: 1 processor, 2 GB memory, and 5 GB storage C ...

angularjs控制器之间通信，事件通知服务

service要记住一点就是所有的services都是singleton(单例)的,service更多的是做一些业务逻辑,数据交互.当然,利用单例这特点也可以用来做不同控制器间的通信.控制器间的通信也 ...

背景:1Y! 学习:1.输入流中的全部数据都要处理干净. * #include<stdio.h> int main(void){ int n,count=1; while(scanf(&q ...

图片上传并生成水印

1 using System; 2 using System.Collections.Generic; 3 using System.Linq; 4 using System.Text; 5 6 na ...

支持WIN7Lectra力克服装CAD软件新版V7R2打版V6R1排料

如何使用气体模拟器PIPELINESTUDIO.pdf 问题.doc 英国ESI公司TGNET中文培训手册.pdf Ansys.14.5.0.Linux64-ISO\ Delcam PartMaker ...

pt-query-digest Reading from STDIN …问题

今天优化Box Anemometer慢日志导入的脚本,在调试时pt-query-digest一直卡在Reading from STDIN ...不动,而别一台机器顺利执行成功. 查看帮助 pt-que ...

IKAnalyzer 3.2.8 报错问题解决办法

使用IKAnalyzer 3.2.8,今晚因为这个报错抓狂了一个网上,百度.google各种搜都没搜到可以解决的办法. 报错:java.lang.NoClassDefFoundError: Could ...

PHP Console工具使用分享

作者:zhanhailiang 日期:2014-10-28 PHP Console:https://github.com/barbushin/php-console#php-console-serve ...

linux 上安装mysql

Mysql的安装安装版本:msyql-5.5.39.tar.gz 安装机器:baseline01 安装过程: 登陆baseline01,切换用户名root,并进入软件包所在目录: $ su - ro ...

mysql root 忘记密码破解

service mysqld stop #通知mysql服务 vim /etc/my.cnf #编辑配置文件添加 skip-grant-tables 保存配置文件重启服务 mysql -p ...

基于Bootstrap+jQuery.validate Form表单验证实践

项目结构 : github 上源码地址:https://github.com/starzou/front-end-example 点击打开 1.form 表单代码 [html] view pla ...

程序员的足球

程序员的足球,我们也能踢出美妙的足球,开心地成长! 想踢出美丽的弧线球,应该注意三点,但其实最重要的是身体的协调性平时一定要多多加强这方面的练习,发力应该非常均匀协调 1.触球位置用脚弓并带一部分 ...

RPG游戏设计（转自Gameres）

目录: 第一章概述第二章场景第三章角色第四章道具第五章事件第六章对白第七章语音和音效第八章音乐第九章界面第十章规则第十一章命名第一章:概述 RPG游戏即角色 ...

初始通过 FastClick.notNeeded 方法判断是否需要做后续相关处理

其实前面几篇文章大家都遇到一些错误,很多时候呢,我并没有直接回复解决方案,不是LZ不想告诉大家,如果不想那就不写这个了,估计博客园啊CSDN啊那么多写博客的,很少有人把现用框架分享出来,既然分享就毫不 ...

dedecms手机站要同步pc站的图片

首先在dede目录下面找到 /include/extend.func.php 文件 //添加自定义函数 function replaceurl($newurl){ $newurl=str_repl ...

【算法】网上看到的5个问题

网上看到的5个问题,下面是解答,不知道有没有其他建议! 问题1 使用for循环.while循环和递归写出3个函数来计算给定数列的总和. package com.luka; public class J ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.