spark sql metastore 配置 mysql

本文主要介绍如何为 spark sql 的 metastore 配置成 mysql 。

spark 的版本 2.4.0 版本

hive script 版本为 hive 1.2.2

mysql 为 5.7.18

mysql 的安装部署就不在这里介绍了。

首先为 mysql 的root 用户设置密码

mysql -uroot
> set password= password(‘mysql‘);

设置mysql 允许其他机器登录

> GRANT ALL PRIVILEGES ON *.* TO ‘root‘@‘%‘ IDENTIFIED BY ‘mysql‘ WITH GRANT OPTION;> FLUSH PRIVILEGES;

创建一个新的database

> CREATE DATABASE metastore;

初始化创建hive 的metastore 表

> use metastore;
> source /opt/hive-1.2.2/scripts/metastore/upgrade/mysql/hive-schema-1.2.0.mysql.sql;

初始化过程中，会报告一些错误，但是不影响后续的对接，错误信息如下

ERROR:
Failed to open file ‘hive-txn-schema-0.13.0.mysql.sql‘, error: 2

从Oracle 官网下载mysql 的jdbc 驱动，然后将 jdbc jar 包放到 ${SPARK_HOME}/jars 目录下。

配置 spark sql 的hive-site.xml 配置文件，新增以下内容

<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://HOSTNAME/metastore</value>
  <description>the URL of the MySQL database</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>

<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>DB_USER</value>
</property>

<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>DB_PASSWD</value>
</property>

<property>
  <name>datanucleus.autoCreateSchema</name>
  <value>false</value>
</property>

<property>
  <name>datanucleus.fixedDatastore</name>
  <value>true</value>
</property>

HOSTNAME，填写mysql 的ip 地址或者hostname

DB_USER，填写mysql 的登陆用户名

DB_PASSWD，填写mysql 的登陆密码

然后直接启动 spark-sql 命令，执行 show tables 测试是否正常，不报错即为正常。

Cloudera 官网中，详细地介绍了如何为 hive metastore 配置 mysql， postgresql 和 oracle 数据库，具体地址为：

https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hive_metastore_configure.html

原文地址：https://www.cnblogs.com/chenfool/p/10770197.html

时间： 2024-12-19 12:18:39

spark sql metastore 配置 mysql的相关文章

spark sql cli 配置使用

想使用spark sql cli 直接读取hive中表来做分析的话只需要简答的几部设置就可以了 1.拷贝hive-site.xml 至spark conf cd /usr/local/hive/conf/hive-site.xml /usr/local/spark-1.5.1/conf/ 2.配置spark classpath ,添加mysql驱动类 $ vim conf/spark-env.sh export SPARK_CLASSPATH=$SPARK_CLASSPATH:$SPARK_LO

Spark SQL笔记——技术点汇总

目录 · 概述 · 原理 · 组成 · 执行流程 · 性能 · API · 应用程序模板 · 通用读写方法 · RDD转为DataFrame · Parquet文件数据源 · JSON文件数据源 · Hive数据源 · 数据库JDBC数据源 · DataFrame Operation · 性能调优 · 缓存数据 · 参数调优 · 案例 · 数据准备 · 查询部门职工数 · 查询各部门职工工资总数,并排序 · 查询各部门职工考勤信息概述 1. Spark SQL是Spark的结构化数据处理模块.

安装ejabberd2并配置MySQL为其数据库

以前用过openfire做为服务器,但是openfire的集群支持不是很好,所以改用Ejabberd,由于它是用Erlang语言开发的,其并发率与分布式的功能都是很强悍的,在此我记录一下我的安装与配置过程. 1.安装就不用说了,到其官网下载安装包.我的系统是Mac OS, 所以我只说明在Mac OS上安装.下载安装包后,直接点击安装.安装后会在/Applications目录生成Ejabberd的目录,由于我下载的是Ejabberd-2.1.11,所以安装目录为:/Applications/ej

第57课：Spark SQL on Hive配置及实战

1,首先需要安装hive,参考http://lqding.blog.51cto.com/9123978/1750967 2,在spark的配置目录下添加配置文件,让Spark可以访问hive的metastore. [email protected]:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/conf# vi hive-site.xml <configuration> <property> <name>hive.metast

spark sql 的metastore 对接 postgresql

本教程记录 spark 1.3.1 版本的thriftserver 的metastore 对接 postgresql postgresql 的编译,参考:http://www.cnblogs.com/chenfool/p/4530925.html 一启动postgresql 服务 1 首先需要将postgresql 的lib 加载到 LD_LIBRARY_PATH 环境变量中 export LD_LIBRARY_PATH=/opt/sequoiadb/lib:${LD_LIBRARY_PATH

HIVE配置mysql metastore

HIVE配置mysql metastore hive中除了保存真正的数据以外还要额外保存用来描述库.表.数据的数据,称为hive的元数据.这些元数据又存放在何处呢? 如果不修改配置hive默认使用内置的derby数据库存储元数据. derby是apache开发的基于java的文件型数据库. 可以检查之前执行命令的目录,会发现其中产生了一个metastore.db的文件,这就是derby产生的用来保存元数据的数据库文件. derby数据库仅仅用来进行测试,真正使用时会有很多

hibernate4中oracle,sqlserver,mysql数据库的sql方言配置(SQL Dialects)

hibernate4中oracle,mysql,sqlserver数据库的sql方言配置(SQL Dialects) 数据库类型 Hibernate sql方言 DB2 org.hibernate.dialect.DB2Dialect DB2 AS/400 org.hibernate.dialect.DB2400Dialect DB2 OS390 org.hibernate.dialect.DB2390Dialect PostgreSQL 8.1 org.hibernate.dialect.Po

把Spark SQL的metadata存储到mysql

1:安装配置mysql yum install mysql mysql-server service mysqld start mysqladmin -u root password newpassword mysql -u root -p 登录mysql mysql>GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'WITH GRANT OPTION myslq>FLUSH PRIVILEGES 2:配置hive-site.xml 下载一个hive的安装包,

spark结构化数据处理：Spark SQL、DataFrame和Dataset

本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际,并且Spark 2.0的预览版本也已发布许久),因此请随时关注Spark SQL官方文档以了解最新信息. 文中使用Scala对Spark SQL进行讲解,并且代码大多都能在spark-shell中运行,关于这点请知晓. 概述相比于