Hive学习之路（三）Hive元数据信息对应MySQL数据库表

概述

Hive 的元数据信息通常存储在关系型数据库中，常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。

Hive的元数据信息在MySQL数据中有57张表

一、存储Hive版本的元数据表（VERSION）

VERSION -- 查询版本信息

该表比较简单，但很重要。

VER_ID	SCHEMA_VERSION	VERSION_COMMENT
ID主键	Hive版本	版本说明
1	0.13.0	Set by MetaStore

如果该表出现问题，根本进入不了Hive-Cli。

比如该表不存在，当启动Hive-Cli时候，就会报错”Table ‘hive.version’ doesn’t exist”。

二、Hive数据库相关的元数据表（DBS、DATABASE_PARAMS）

1、DBS

DBS　　　　 -- 存储Hive中所有数据库的基本信息

元数据表字段	说明	示例数据
DB_ID	数据库ID	2
DESC	数据库描述	测试库
DB_LOCATION_URI	数据库HDFS路径	hdfs://namenode/user/hive/warehouse/lxw1234.db
NAME	数据库名	lxw1234
OWNER_NAME	数据库所有者用户名	lxw1234
OWNER_TYPE	所有者角色	USER

2、DATABASE_PARAMS

DATABASE_PARAMS　　--该表存储数据库的相关参数，在CREATE DATABASE时候用

WITH DBPROPERTIES (property_name=property_value, …)指定的参数。

元数据表字段	说明	示例数据
DB_ID	数据库ID	2
PARAM_KEY	参数名	createdby
PARAM_VALUE	参数值	lxw1234

注意：

DBS和DATABASE_PARAMS这两张表通过DB_ID字段关联。

三、Hive表和视图相关的元数据表

主要有TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联。

1、TBLS

该表中存储Hive表、视图、索引表的基本信息。

元数据表字段	说明	示例数据
TBL_ID	表ID	1
CREATE_TIME	创建时间	1436317071
DB_ID	数据库ID	2，对应DBS中的DB_ID
LAST_ACCESS_TIME	上次访问时间	1436317071
OWNER	所有者	liuxiaowen
RETENTION	保留字段	0
SD_ID	序列化配置信息	86，对应SDS表中的SD_ID
TBL_NAME	表名	lxw1234
TBL_TYPE	表类型	MANAGED_TABLE、EXTERNAL_TABLE、INDEX_TABLE、VIRTUAL_VIEW
VIEW_EXPANDED_TEXT	视图的详细HQL语句	select `lxw1234`.`pt`, `lxw1234`.`pcid` from `liuxiaowen`.`lxw1234`
VIEW_ORIGINAL_TEXT	视图的原始HQL语句	select * from lxw1234

2、TABLE_PARAMS

该表存储表/视图的属性信息。

元数据表字段	说明	示例数据
TBL_ID	表ID	1
PARAM_KEY	属性名	totalSize、numRows、EXTERNAL
PARAM_VALUE	属性值	970107336、21231028、TRUE

3、TBL_PRIVS

该表存储表/视图的授权信息

元数据表字段	说明	示例数据
TBL_GRANT_ID	授权ID	1
CREATE_TIME	授权时间	1436320455
GRANT_OPTION		0
GRANTOR	授权执行用户	liuxiaowen
GRANTOR_TYPE	授权者类型	USER
PRINCIPAL_NAME	被授权用户	username
PRINCIPAL_TYPE	被授权用户类型	USER
TBL_PRIV	权限	Select、Alter
TBL_ID	表ID	22，对应TBLS表中的TBL_ID

四、Hive文件存储信息相关的元数据表

　　主要涉及SDS、SD_PARAMS、SERDES、SERDE_PARAMS

　　由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。

1、SDS

　　该表保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。

　　TBLS表中的SD_ID与该表关联，可以获取Hive表的存储信息。

元数据表字段	说明	示例数据
SD_ID	存储信息ID	1
CD_ID	字段信息ID	21，对应CDS表
INPUT_FORMAT	文件输入格式	org.apache.hadoop.mapred.TextInputFormat
IS_COMPRESSED	是否压缩	0
IS_STOREDASSUBDIRECTORIES	是否以子目录存储	0
LOCATION	HDFS路径	hdfs://namenode/hivedata/warehouse/ut.db/t_lxw
NUM_BUCKETS	分桶数量	5
OUTPUT_FORMAT	文件输出格式	org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
SERDE_ID	序列化类ID	3，对应SERDES表

2、SD_PARAMS

　　该表存储Hive存储的属性信息，在创建表时候使用

　　STORED BY ‘storage.handler.class.name’ [WITH SERDEPROPERTIES (…)指定。

元数据表字段	说明	示例数据
SD_ID	存储配置ID	1
PARAM_KEY	存储属性名
PARAM_VALUE	存储属性值

3、SERDES

该表存储序列化使用的类信息

元数据表字段	说明	示例数据
SERDE_ID	序列化类配置ID	1
NAME	序列化类别名
SLIB	序列化类	org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

4、SERDE_PARAMS

该表存储序列化的一些属性、格式信息,比如：行、列分隔符

元数据表字段	说明	示例数据
SERDE_ID	序列化类配置ID	1
PARAM_KEY	属性名	field.delim
PARAM_VALUE	属性值	,

五、Hive表字段相关的元数据表

主要涉及COLUMNS_V2

1、COLUMNS_V2

该表存储表对应的字段信息。

元数据表字段	说明	示例数据
CD_ID	字段信息ID	1
COMMENT	字段注释
COLUMN_NAME	字段名	pt
TYPE_NAME	字段类型	string
INTEGER_IDX	字段顺序	2

六、Hive表分区相关的元数据表

主要涉及PARTITIONS、PARTITION_KEYS、PARTITION_KEY_VALS、PARTITION_PARAMS

1、PARTITIONS

该表存储表分区的基本信息。

元数据表字段	说明	示例数据
PART_ID	分区ID	1
CREATE_TIME	分区创建时间
LAST_ACCESS_TIME	最后一次访问时间
PART_NAME	分区名	pt=2015-06-12
SD_ID	分区存储ID	21
TBL_ID	表ID	2

2、PARTITION_KEYS

该表存储分区的字段信息。

元数据表字段	说明	示例数据
TBL_ID	表ID	2
PKEY_COMMENT	分区字段说明
PKEY_NAME	分区字段名	pt
PKEY_TYPE	分区字段类型	string
INTEGER_IDX	分区字段顺序	1

3、PARTITION_KEY_VALS

该表存储分区字段值。

元数据表字段	说明	示例数据
PART_ID	分区ID	2
PART_KEY_VAL	分区字段值	2015-06-12
INTEGER_IDX	分区字段值顺序	0

4、PARTITION_PARAMS

该表存储分区的属性信息。

元数据表字段	说明	示例数据
PART_ID	分区ID	2
PARAM_KEY	分区属性名	numFiles、numRows
PARAM_VALUE	分区属性值	15、502195

七、其他不常用的元数据表

DB_PRIVS

数据库权限信息表。通过GRANT语句对数据库授权后，将会在这里存储。

IDXS

索引表，存储Hive索引相关的元数据

INDEX_PARAMS

索引相关的属性信息。

TAB_COL_STATS

表字段的统计信息。使用ANALYZE语句对表字段分析后记录在这里。

TBL_COL_PRIVS

表字段的授权信息

PART_PRIVS

分区的授权信息

PART_COL_STATS

分区字段的统计信息。

PART_COL_PRIVS

分区字段的权限信息。

FUNCS

用户注册的函数信息

FUNC_RU

用户注册函数的资源信息

原文地址：https://www.cnblogs.com/qingyunzong/p/8710356.html

时间： 2024-10-07 16:44:02

Hive学习之路（三）Hive元数据信息对应MySQL数据库表的相关文章

Jquery学习之路(三) 实现弹出层插件

弹出层的应用还是比较多的,登陆,一些同页面的操作,别人的总归是别人的,自己的才是自己的,所以一直以来想写个弹出层插件.不多废话,直接开始吧! 不想看可以在这里直接下载源码xsPop.zip 1:遮罩层要弹出层,先要用一个遮罩层挡在下面的页面,此遮罩层是全屏的,页面滚动也要有,所以设置 position: fixed;还要有透明效果,下面是我定义的遮罩层css,取名mask .mask { position: fixed; width: 100%; height: 100%; backgroun

将Hive统计分析结果导入到MySQL数据库表中（三）——使用Hive UDF或GenericUDF

前面我分别介绍了两种Hive将分析结果导入到MySQL表的两种方式:Sqoop导入方式和使用Hive.MySQL JDBC驱动,现在我介绍第三种,也是使用比较多的方式--使用Hive 自定义函数(UDF或GenericUDF)将每条记录插入到数据库表中. 一.使用UDF方式使用UDF方式实现比较简单,只要继承UDF类,并重写evaluate方法即可 1.编写实现类 package com.gxnzx.hive.udf; import org.apache.hadoop.hive.ql.exec

将Hive统计分析结果导入到MySQL数据库表中（一）——Sqoop导入方式

最近在做一个交通流的数据分析,需求是对于海量的城市交通数据,需要使用MapReduce清洗后导入到HBase中存储,然后使用Hive外部表关联HBase,对HBase中数据进行查询.统计分析,将分析结果保存在一张Hive表中,最后使用Sqoop将该表中数据导入到MySQL中.整个流程大概如下: 下面我主要介绍Hive关联HBase表--Sqoop导出Hive表到MySQL这些流程,原始数据集收集.MapReduce清洗及WEB界面展示此处不介绍. 一.HBase数据库表 hbase(main):

Python数据库操作 Mysql数据库表引擎与字符集#学习猿地

# Mysql数据库表引擎与字符集 ![](./imgs/752951346A5F4E7EBDE362FA97107707.png) ### 1.服务器处理客户端请求其实不论客户端进程和服务器进程是采用哪种方式进行通信,最后实现的效果都是:**客户端进程向服务器进程发送一段文本(MySQL语句),服务器进程处理后再向客户端进程发送一段文本(处理结果).**那服务器进程对客户端进程发送的请求做了什么处理,才能产生最后的处理结果呢?客户端可以向服务器发送增删改查各类请求,我们这里以比较复杂的查询请

Hive学习之路（一）Hive初识

Hive 简介什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive SQL)查询功能 5.底层数据是存储在 HDFS 上 6.Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 7.使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算. 数据仓库之父比尔·恩门(Bill Inmon

Hive学习之路（一）Hive初识

Hive简介什么是Hive Hive由Facebook实现并开源是基于Hadoop的一个数据仓库工具可以将结构化的数据映射为一张数据库表提供HQL(Hive SQL)查询功能底层数据是存储在HDFS上 Hive的本质是将SQL语句转换为MapReduce任务运行使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化数据,适用于离线的批量数据计算为什么使用Hive ? 直接使用MapReduce所面临的问题: 人员学习成本太高项目周期要求太短 MapRedu

[转帖]Hive学习之路（一）Hive初识

https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介什么是Hive 为什么使用 Hive Hive 特点 Hive 和 RDBMS 的对比 Hive的架构 1.用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface 2.跨语言服务 : thrift server 提供了一种能力,让用户可以使用多种不同的语言来操纵hive 3.底层的Dr

Hive学习之路（二十）Hive 执行过程实例分析

一.Hive 执行过程概述 1.概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduce 作业 (4)Hive 通过 ExecMapper 和 ExecReducer 执行 MapReduce 程序,执行模式有本地模式和分布式两种模式 2.Hive 操作符列表 3.Hive 编译器的

Hive学习笔记（三）

分区和桶: hive把表组织成分区,这是一种根据分区列的值进行粗略划分的机制.使用分区可以加快数据分片的查询速度. 表或分区可以进一步划分为桶,它会为数据提供额外的数据结构从而获得更高效的查询处理.比如:根据用户ID来划分桶,我们可以在所有用户集合的随机样本上快速计算基于用户的查询. 分区: 分区是在创建表时用PARTITIONED BY子句进行定义.该子句需要定义列的列表. create table logs(ts String,line String ) PARTITIONED BY(dt

Hive学习之路 （三）Hive元数据信息对应MySQL数据库表

概述

一、存储Hive版本的元数据表（VERSION）

二、Hive数据库相关的元数据表（DBS、DATABASE_PARAMS）

1、DBS

2、DATABASE_PARAMS

三、Hive表和视图相关的元数据表

1、TBLS

2、TABLE_PARAMS

3、TBL_PRIVS

四、Hive文件存储信息相关的元数据表

1、SDS

2、SD_PARAMS

3、SERDES

4、SERDE_PARAMS

五、Hive表字段相关的元数据表

1、COLUMNS_V2

六、Hive表分区相关的元数据表

1、PARTITIONS

2、PARTITION_KEYS

3、PARTITION_KEY_VALS

4、PARTITION_PARAMS

七、其他不常用的元数据表

Hive学习之路 （三）Hive元数据信息对应MySQL数据库表的相关文章

Hive学习之路（三）Hive元数据信息对应MySQL数据库表

Hive学习之路（三）Hive元数据信息对应MySQL数据库表的相关文章