spark之数据源之自动分区推断

在hadoop上创建目录/spark-study/users/gender=male/country=US/users.parquet（并且把文件put上去）

code：

package cn.spark.study.core.mycode_dataFrame;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

public class ParquetPartitionDiscovery {
public static void main(String[] args) {
SparkConf conf = new SparkConf()
//.setMaster("local")
.setAppName("ParquetPartitionDiscovery");
JavaSparkContext sc = new JavaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
DataFrame df = sqlContext.read().parquet("hdfs://spark1:9000/spark-study/users/gender=male/country=US/users.parquet");
df.printSchema();
df.show();
}
}

时间： 2024-12-21 22:50:50

spark之数据源之自动分区推断的相关文章

39、Parquet数据源之自动分区推断&合并元数据

一.自动分区推断 1.概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性.在一个分区表中,不同分区的数据通常存储在不同的目录中, 分区列的值通常就包含在了分区目录的目录名中.Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息. 例如,如果将人口数据存储在分区表中,并且使用性别和国家作为分区列.那么目录结构可能如下所示: tableName |- gender=male |- country=US ... ... ... |- country=CN ..

为已有表快速创建自动分区和Long类型like 的方法-Oracle 11G

对上一篇文章进行实际的运用.在工作中遇到有一张大表(五千万条数据),在开始的时候忘记了创建自动分区,导致现在使用非常不方便,查询的速度非常的满,所以就准备重新的分区表,最原始方法是先创建新的分区表,然后将数据依次插入到新的表中,但是我们的表的数据比较的大,如果这样做可能导致效率相对较低,经过寻扎发现了上一篇文章,这篇文章有三个方法,第一个就是最原始的方法,我没有进行实验,第二种(交换分区)和第三种的(在线重定义)我都进行了测试,第三种方法,我初以为会比较快速,但是经过测试需要超过2个小时的时间,

C++11新特性：自动类型推断和类型获取

声明:本文是在Alex Allain的文章http://www.cprogramming.com/c++11/c++11-auto-decltype-return-value-after-function.html的基础上写成的. 加入了很多个人的理解,不是翻译. 转载请注明出处 http://blog.csdn.net/srzhz/article/details/7934483 自动类型推断当编译器能够在一个变量的声明时候就推断出它的类型,那么你就能够用auto关键字来作为他们的类型: [c

磁盘自动分区

#!/bin/bash##########################################Function: auto fdisk#Usage: bash auto_fdisk.sh#Author: Customer service department#Company: Alibaba Cloud Computing#Version: 2.0######################################### count

MySql自动分区

自动分区需要开启MySql中的事件调度器,可以通过如下命令查看是否开启了调度器 show variables like '%scheduler%'; 如果没开启的话通过如下指令开启 SET GLOBAL event_scheduler = 1; 1.创建一个分区表 CREATE TABLE sales ( id INT AUTO_INCREMENT, amount DOUBLE NOT NULL, createTime DATETIME NOT NULL, PRIMARY KEY(id, cre

Timestamp 与 Date 变量绑定与Oracle的自动分区

好久没有更新博客了,其实是工作中遇到的很多问题在Google上都能找到答案,也就没有记录下来的必要了.今天主要想聊一下在实际的系统中遇到的Oracle数据库的问题,希望对大家有一点点帮助就好. 我首先描述一下我所遇到的场景:我们的数据库用的是Oracle 11g,我想大家立马就对它的自动分区(Interval)有了基本的认识了,这是一个非常棒的功能,免除了在建表时弄一大堆建Range分区的代码,也免除了以后对数据库进行分区扩充的麻烦.当然利用JOB也是可以完成分区扩展的,但是既然Oracle提供

自动分区、格式化、挂载脚本

功能:自动检测是否有尚未分区的数据盘,格式化新的数据盘并自动挂载解决了什么问题:一键式检测是否有尚未分区的数据盘,并能对其格式化和自动挂载,省去了复杂的命令和步骤执行方法:以root身份执行命令 wget http://mirrors.linuxeye.com/scripts/auto_fdisk.sh chmod +x auto_fdisk.sh ./auto_fdisk.sh 结果:出现如下即自动分区.格式化.挂载成功: 脚本内容如下: #!/bin/bash # Author: yeh

PC端 Spark 二次开发自动接收好友请求并同意

本次Spark二次开发是为了客服模块的开发, 能让用户一旦点击该客服则直接自动添加好友,而客服放则需自动添加好友,不同弹出对话框进行同意,这方便的广大客服. 现在废话不多说,直接上代码. package org.jivesoftware.spark.ui; import java.util.ArrayList; import org.jivesoftware.spark.util.log.Log; import org.jivesoftware.spark.util.ModelUtil; imp

Spark SQL数据源

SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的代码优化,生成以及执行流程,所以 sql,dataframe,datasets 的入口都是 sqlContext. 可用于创建 spark dataframe 的数据源有很多: SparkSQL数据源:RDD val sqlContext = new org.apache.spark.sql.SQLContext(sc)

猜你喜欢

项目工程的包package与文件夹的关系

项目工程的包package与文件夹的关系: 1. 包名与文件夹是分层关系,包名只是一个字符串而已,包名.对应的是层级的文件夹. 如,com.Immoc.Access包,只是一个字符串.但他对应的win ...

Linux基础（4）之文本处理

Linux进行文本处理的命令主要有cat tac tail head less more sort uniq cut tr grep sed awk 1.cat 用来查看某个文件的内容格式 cat ...

C# 基于websocket实时通信的实现—GoEasy

C# websocket实时消息推送在这里我记录一下之前如何实现服务器端与客户端实时通信: 实现步骤如下: 1. 获取GoEasy appkey. 在goeasy官网上注册一个账号,并 ...

STL笔记(3) copy()之绝版应用

STL笔记(3) copy()之绝版应用我选用了一个稍稍复杂一点的例子,它的大致功能是:从标准输入设备(一般是键盘)读入一些整型数据,然后对它们进行排序,最终将结果输出到标准输出设备(一般是显示器屏 ...

webui layout like desktop rich client

similarity similarlike desktop js frameworklike extj js frameworklike rich client js frameworkjs lay ...

iOS 横幅广告

在这里跟大家分享一个关于谷歌横幅广告的链接,这里有谷歌sdk的下载等说明 https://developers.google.com/mobile-ads-sdk/docs/admob/fundame ...

25. Mac命令行登陆远程

系统命令行或者iTem2 ssh [email protected] -p 端口或者编辑 vim ~/.ssh/config 把远程服务器添加到config里面 Host abctest HostN ...

更加直观地了解hasLayout和BFC

网络上有很多关于hasLayout和BFC相关的文章,但是大部分都显得有些晦涩难懂.所以想用一些比较直观的例子来说明hasLayout和BFC给平时的布局带来的影响. 基础知识在讲hasLayout ...

XMLHttpRequest 中 blob类型数据转text

场景描述:ajax接收的数据类型既有blob类型也有text时,不同的类型做不同的处理.如,当下载文件.图片等信息时候,需要字节流responseType = 'blob',同时,如果后台有出错信息需 ...

poj1364 King

地址:http://poj.org/problem?id=1364 题目: King Time Limit: 1000MS Memory Limit: 10000K Total Submissio ...

修改setup.py的源

方法一: 修改文件 ~/.pydistutils.cfg为: [easy_install] index_url = http://pypi.douban.com/simple 方法二: 直接在setu ...

Python编译错误集锦

1 IndentationError: expected an indented block Python语言是一款对缩进非常敏感的语言,给很多初学者带来了困惑,即便是很有经验的Python程序员,也 ...

【腾讯Bugly干货分享】美团大众点评 Hybrid 化建设

本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:http://mp.weixin.qq.com/s/rNGD6SotKoO8frmxIU8-xw 本期 T ...

多线程的创建、退出、等待、删除语法

1.多线程创建pthread_create()的语法 2.多线程退出pthread_exit()的语法 3.多线程等待pthread_join()的语法 4.多线程删除pthread_cancel() ...

DOM系列---DOM操作样式

发文不易,若转载传播,请亲注明出处,谢谢! 一．操作样式 CSS作为(X)HTML的辅助,可以增强页面的显示效果.但不是每个浏览器都能支持最新的CSS能力.CSS的能力和DOM级别密切相关,所以我们有 ...

C# 隐藏TabControl标签

隐藏标签 ? 1 2 3 tabControl.SizeMode = TabSizeMode.Fixed; tabControl.Appearance = TabAppearance.FlatButt ...

json 时间日期转换

function jsonDateFormat(jsonDate) { try { var date = new Date(parseInt(jsonDate.replace("/Date( ...

ios - (void)prepareForSegue:(UIStoryboardSegue *)segue sender:(id)sender 的写法

写法1: - (void)prepareForSegue:(UIStoryboardSegue *)segue sender:(id)sender { // Get the new view cont ...

去除列表中字符串中的空格换行等

for x in topic_replay:# 去掉在x左右的空白,\t,\n和\r字符. x1 = x.strip(' \t\n\r') if x1 !='': topic_replay_end.a ...

排序算法——C#语言版

插入排序:(直接插入排序&希尔排序) using System; using System.Collections.Generic; using System.Linq; using Syst ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.