通过spark-sql快速读取hive中的数据

1 配置并启动

1.1 创建并配置hive-site.xml

在运行Spark SQL CLI中需要使用到Hive Metastore，故需要在Spark中添加其uris。具体方法是将HIVE_CONF/hive-site.xml复制到SPARK_CONF目录下，然后在该配置文件中，添加hive.metastore.uris属性，具体如下：

<configuration> 

  <property>

    <name>hive.metastore.uris</name>

    <value>thrift://hadoop1:9083</value>

    <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>

  </property>

</configuration>

　　

1.2 启动Hive Metastore

在使用Spark SQL CLI之前需要启动Hive Metastore（如果数据存放在HDFS文件系统，还需要启动Hadoop的HDFS），使用如下命令可以使Hive Metastore启动后运行在后台，可以通过jobs查询：

$nohup hive --service metastore > metastore.log 2>&1 &

1.3 启动Spark集群和Spark SQL CLI

通过如下命令启动Spark集群和Spark SQL CLI：

$cd /app/hadoop/spark-1.1.0

$sbin/start-all.sh

$bin/spark-sql --master spark://hadoop1:7077 --executor-memory 1g

　　

在集群监控页面可以看到启动了SparkSQL应用程序：

这时就可以使用HQL语句对Hive数据进行查询，另外可以使用COMMAND，如使用set进行设置参数：默认情况下，SparkSQL Shuffle的时候是200个partition，可以使用如下命令修改该参数：

SET spark.sql.shuffle.partitions=20;

运行同一个查询语句，参数改变后，Task（partition）的数量就由200变成了20。

原文地址：https://www.cnblogs.com/puppey/p/9723722.html

时间： 2024-10-05 00:50:04

通过spark-sql快速读取hive中的数据的相关文章

IDEA，SparkSql读取HIve中的数据

传统Hive计算引擎为MapReduce,在Spark1.3版本之后,SparkSql正式发布,并且SparkSql与apache hive基本完全兼容,基于Spark强大的计算能力,使用Spark处理hive中的数据处理速度远远比传统的Hive快.在idea中使用SparkSql读取HIve表中的数据步骤如下1.首先,准备测试环境,将hadoop集群conf目录下的core-site.xml.hdfs-site.xml和Hive中conf目录下hive-site.xml拷贝在resources

SQL Server 读取CSV中的数据

测试: Script: create table #Test ( Name nvarchar(10), Age int, T nvarchar(10) ) BULK INSERT #Test From 'I:\AAA.csv' with( fieldterminator = ',', rowterminator = '\n' ) select * from #Test drop table #Test Result: Name Age TTestA 13 AugTestB 14 AppTestC

Spark读取Hbase中的数据_云帆大数据分享

Spark读取Hbase中的数据大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: 1 JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Scala版本如下: 1 val myRDD= sc.parallelize(List(1,2,3)) 这种方式很简单,很容易就可以将一个集合中的数据变成RDD的初

Spark SQL是处理结构化的数据

Spark SQL是处理结构化的数据,可以存储在二维表中,类似数据库中的表一样存储数据 Spark1.x val sqlContext = new SparkContext(conf) val sqlContext = new SQLContext(sc) //将RDD和Schema信息关联到一起,1,RDD和case class 2,RDD和StructType //case class Person将RDD中的数据转换成case class 属性相对应的类型,然后设置到case class中

使用Sqoop，最终导入到hive中的数据和原数据库中数据不一致解决办法

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 1.问题背景使用Sqoop把oracle数据库中的一张表,这里假定为student,当中的数据导入到hdfs中,然后再创建hive的external表,location到刚才保存到hdfs中数

读取文件中的数据（以结构体存放）

/* *读取文件中的数据(数据以结构体存放) */ #include<iostream> #include <fstream> //#define Field 31 //field_anal number #define Field 15 //field_post number using namespace std; //the level restore certain level data //level_z show the level struct Level { int

使用ScrapySharp快速从网页中采集数据

转自原文使用ScrapySharp快速从网页中采集数据 ScrapySharp是一个帮助我们快速实现网页数据采集的库,它主要提供了如下两个功能从Url获取Html数据提供CSS选择器的方式解析Html节点安装: ScrapySharp可以直接从Nuget上下载,直接从Package Console里面输入如下命令即可: PM> Install-Package ScrapySharp Html下载首先我们来看看它的Html下载功能,它是通过ScrapingBrowser类来实现的: va

JAVA写个东西读取TXT中的数据且要计算出平均值和总值最后还要按总值排序

AVA写个东西读取TXT中的数据且要计算出平均值和总值最后还要按总值排序例如:要计算a.txt文档中内容可如下: 学号姓名语文数学英语平均值总值排序 1 肯德基 90 98 97 2 经典款 98 97 92 3 肯德的 93 92 97 import java.io.*; import java.io.File; import java.util.ArrayList; import java.util.Iterat

读取Excel中的数据到DataSet

读取Excel中的数据到DataSet 1.引用命名空间 using System.Data.OleDb; 2.输入Excel文件,输出DataSet public DataSet ExecleDs() { string strConn = "Provider=Microsoft.ACE.OLEDB.12.0;Data Source=D:\\data-for-source-apportionment\\PM-SO2-NOx-CO-O3-201311-20140324.xlsx

猜你喜欢

oracle11g 安装错误汇总

oracle11g安装错误总结: 1,执行./runInstaller报错如下: You are atempting to install 64-bit Oracle on a 32-bit oper ...

100 个高质量的XHTML/CSS 模板

网上的免费 Web 模板多如牛毛,良莠不齐,这组模板是 Smashing Magazine推荐的,全部是基于 XHTML/CSS 的.在 W3C 标准愈趋重要的时代,自觉使用最规范的代码可以让您的设计 ...

Hdoj 2333 Assemble 【二分】

Assemble Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total S ...

python学习之---生成器

通过列表生成式,我们可以直接创建一个列表.但是,受到内存限制,列表容量肯定是有限的.而且,创建一个包含1000万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元 ...

查看linux系统和内核版本

1. 查看内核版本命令: 1) [[email protected] ~]# cat /proc/version Linux version 2.6.9-22.ELsmp ([email protec ...

java右移>> 无符号右移>>>

>>>是无符号右移,在高位补零 >>是带符号的右移,如果是正数则在高位补零,负数则补1 int a = -1; System.out.println(a>>1 ...

HDU 5718 Oracle

Oracle Time Limit: 8000/4000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others)Total Su ...

0122 清楚缓存

//start -(void)clearCashSelf{ MCLog(@"NSHomeDirectory 沙盒路径----%@",NSHomeDirectory()); // ...

Struts中Action三种接收参数的方式？

前言: 前面已经有一篇随笔介绍了Struts2的大概原理.本文就Struts2中Action与jsp页面进行数据对接时介绍几种常见方法! 值栈ValueStack 3个Action Action1 p ...

ORB-SLAM编译记录

系统:Ubuntu16.04+ROS-Kinetic ROS-Kinetic的安装请参考http://www.cnblogs.com/liu-fa/p/5779206.html 新建一个ros工作空间 ...

padding和width百分比使用时要注意滚动条的出现

最主要的原因还是我对盒子模型理解的不够. 盒子大小最为重要的2个部分就是padding和内容content. 当我们设置width是在设置content的大小,百分比的时候它参照的是父元素的conte ...

我想做一个合格的工程师

我想吐槽下,在新公司经过三个月的试用期,前两天终于完成了转正答辩,其实答辩就是两个我们项目组的两个项目经理(一个项目经理马上要离任了,另外一个新来的两个月,继任前者作为项目经理.),还有一个人事的同事 ...

Swiper.js使用遇到的问题总结onSlideChangeEnd回调偶尔触发，偶尔不触发等；

Swiper 是一个开源免费的移动触摸插件. 在使用中遇到这样一个问题,记录一下. page 间切换效果使用 fade 的时候,如果每个页面的大小不一样, 比如第一个页面全屏, 第二个页面比第一个小 ...

下拉选项设置数据的三种方式介绍

度量快速开发平台中,在智能窗体上拖入下拉选择,可以实现很多功能.比如制作查询条件,选择数据等. 方法1:直接在下拉选择右边属性中设置数据. 使用效果: 该方法设置简答,对于那种是固定数据的设置,可以采 ...

[SharePoint 2010] 如何在小組網站內頁面上撥放影片或是音效檔

在SharePoint 2010中, 我們可以像是Youtube一樣在網頁上撥放影片或是音效檔案. 影片或音效是採取串流的方式來撥放. 也就是說我們不需要把整個檔案都下載回來才開始撥放. 點選沒多久我 ...

Web Deploy发布网站一条龙解决方案

Web Deploy工具对于ASP.NET开发人员来说一定不陌生,没有用过也经常见到,Web Deploy发布十分方便而且在发布时会帮助用户检验发布文件的正确性.接下来介绍一下基础使用. 第一步:安装 ...

淘宝营销策划 | 淘宝直通车托管

深圳淘宝商城外包淘宝商城托管淘宝运营外包托管(淘宝托管淘宝外包)公司头狼电子商务,合作咨询电话:18928402049 QQ:2131015970 www.51toulang.com) ...

Android MedieCodec硬解码mp3,wma

1MedieCodec支持4.1以上系统使用,是谷歌SDK的一个类. 2能够对mp3,wma格式音频文件解码 3解码前,需要MediaExactor提取文件信息,包括文件类型,采样率, package ...

SQL Server中解决死锁

SQL Server中解决死锁的新方法介绍数据库操作的死锁是不可避免的,本文并不打算讨论死锁如何产生,重点在于解决死锁,通过SQL Server 2005, 现在似乎有了一种新的解决办法. 将下面的 ...

黑马程序员_视频学习总结<Objective-C>----01 面向对象思想、类和对象、面向对象方法

---------------------- ASP.Net+Unity开发..Net培训.期待与您交流! ---------------------- 一.面向对象 1. 面向对象和面向过程思想区别 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.