Hive的数据模型及各模块的应用场景

Hive的数据模型

Hive数据模型.png

数据模型组成及应用场景

  • Hive的数据模型主要有:database、table、partition、bucket四部分;

数据模型之database

  • database:相当于关系型数据库中的命名空间,作用是将数据库应用隔离到不同的数据库模式中,hive提供了create database dbname、use dbname 以及drop database dbname的语句;

数据模型之table

  • table:表是由存储的数据以及描述表的一些元数据组成。数据存储再分布式文件系统中,元数据存储在关系型数据库中;
  • hive表分四种:
    • MANGED_TABLE :内部表
    • EXTERNAL_TABLE:外部表
    • INDEX_TABLE:索引表
    • VIRTUAL_VIEW :视图表
  • 查看表的具体信息使用:desc tablename或者 desc formatted tablename
    Hive内部表和外部表的区别

数据模型之partition

  • hive的分区是根据某列的值进行粗略的划分,每个分区对应HDFS上的一个目录;

数据模型之bucket

  • 要使用hive的分桶功能,首先需要打开hive对痛的控制 set hive.enforce.bucketing=true;
  • bucket是按照指定值进行hash,每个桶就是表目录里的一个文件

原文地址:https://www.cnblogs.com/sx66/p/12039163.html

时间: 2024-10-10 09:45:22

Hive的数据模型及各模块的应用场景的相关文章

Hive视图如何创建、特点及应用场景

Hive视图特点 View是逻辑存在,Hive暂不支持物化视图(1.0.3) View只读,不支持LOAD/INSERT/ALTER.需要改变View定义,可以是用Alter View View内可能包含ORDER BY/LIMIT语句,假如一个针对view的查询也包含这些语句, 则view中的语句优先级高.例如,定义view数据为limit 10, 针对view的查询limit 20,则最多返回10条数据. Hive支持迭代视图. 5.Hive中视图的查询和普通查询类似,查询时把表名更换为视图

Hive面试准备

Hive与HBase的区别Hive架构原理Hive的数据模型及各模块的应用场景Hive支持的文件格式和压缩格式及各自特点Hive内外表的区分方法及内外部差异Hive视图如何创建.特点及应用场景Hive常用命令及作用Hive常用的10个系统函数及作用简述UDF/UDAF/UDTF是什么,各自解决问题及应用场景Hive设置配置参数的方法,列举8个常用配置Hive数据倾斜的原因及主要解决方法Hive优化策略向Hive中传入变量的方式Hive动态分区Hive手写SQL案例Hive分析窗口函数 原文地址:

hive的数据类型和数据模型

关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型.今天本文介绍hive的数据类型,数据模型以及文件存储格式.这些知识大家可以类比关系数据库的相关知识. 首先我要讲讲hive的数据类型. Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型. 原子数据类型包括数值型.布尔型和字符串类型,具体如下表所示: 基本数据类型 类型 描述 示例 TINYINT 1个字节(8位)有符号整数 1 SMALLINT 2字节(16位)有符号整数

Hadoop之Hive

1.Hive 官方网址:http://hive.apache.org/ ? 什么是Hive?(***了解***) l Hive 是建立在 Hadoop上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 HiveQL ,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 re

Hive 笔试题

考试时间: 姓名:____________ 考试成绩:____________ 考试时长:180 分钟 注意事项: 1. 自主答题,不能参考任何除本试卷外的其它资料. 2. 总成绩共 200 分,共 20 题,每题 10 分,注意条理清楚.简明扼要.重点突出. 1. Hive 的架构设计与运行流程,及其各模块的主要作用是什么,请画出架构图 2. Hive 的数据模型组成,及各组成模块的应用场景,请简要描述 3. Hive 支持的文件格式和压缩格式,及其各自的特点? 4. Hive 内外表的区分方

Hive学习笔记(一)

摘要: Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作.1. HIVE结构 Hive 是建

吴超老师课程--Hive的执行语句

为什么选择Hive? (1)基于Hadoop的大数据的计算/扩展能力(2)支持SQL like查询语言(3)统一的元数据管理(4)简单编程 一:Hive的数据类型(1)基本数据类型tinyint/smallint/int/bigintfloat/doublebooleanstring(2)复杂数据类型Array/Map/Struct没有date/datetime (3)Hive的数据存储Hive的数据存储基于Hadoop HDFSHive没有专门的数据存储格式存储结构主要包括:数据库.文件.表.

Hive运行架构及配置部署

Hive 运行架构 由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具: 构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库: 设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据: 使用HQL作为查询接口: 使用HDFS作为存储底层: 使用MapReduce作为执行层: 2008年facebook把Hive项目贡献给Apache: 1.Hive的缺点 Hive的HQL表达能力有限:有些复杂运算用HQL不

PHPCMS V9 模块开发 二次开发实例 留言本

鄙人实现了PHPCMS V9 产品开发权威指南(2011官方最新版).doc中的留言板实例,并加上模块安装和卸载功能, 程序可以运行,但只实现基本功能,目的是想让和我一样徘徊在PHPCMS门口不知道从哪儿进门的初学者走一下流程,欢迎指正! 对于像我这样的入门者希望先把上面这个文档仔细读一遍再往下看! 声明:我用的是GBK版本. 二次开发流程 创建数据库和数据库表(无数据库操作可略过) 创建数据模型文件 创建模块目录 开发控制器和模板 install和uninstall模块 一.创建数据库表 具体