hive 基础知识

hadoop hive

1)2007年hive出世,

2)2014hive0.13.0是非常的流行(先对来说比较稳定)

3)2015hive1.2.0(相对来说只不过是升级)

4)2016hive2.1.0(更新了很多的功能)

1.1hive元数据管理

1)通过hive对元数据进行建模加工,变成表的形式,建立数据仓库管理

2)建立一套类似于关系型数据库的形式,并不是存储在hive上,而是存储在关系型的数据库,而在hive现实中的元数据并不是存储在hadoop上

3)mysql是提供hive的存储

1.2hive的体系架构

处理大型的数据,适合做P处理的数据,

metastore:关系型数据库

Driver:核心驱动 Server:链接jdbc

1.3常用的命令:

1)Belline模式

2)命令行模式

formatted

1.4数据类型

String(万能),decimal (数组的计算)

复杂数据类型

array数组[‘apple‘,‘Orange‘,‘Mongo‘]

map(映射)[‘a‘:‘apple‘,‘o‘:‘orange‘]键值对

相当于一个技能水平到达了多少分

struct(可以有多个列)

1.5 元数据表结构

database是副文件夹,table是子文件夹

partition:对应的是文件夹来分析数据

buckets:分桶 查询连接的优化,决定数据如何分配,是数据文件的一部分,对应的是一个数据文件(文件数据上的分离)

row(行):对应的是一个数据文件是横看

views:查询数据数据的成像,不存数据

Index:索引,对应的是文件夹和文件

1.6 hiveDatabase(数据库)

创建database:create database name

将要切换database:use database name

默认路径:/user/hive/warehouse

1.7 hive Tables(外部表于内部表)

1)external tables(外部表):关键字创建表格时添加Location ‘地址‘,删除表不会删除数据

2)内部表(管理表):数据完全由Hive管理,删除表(元数据)会删除数据

hive建表语句

必写:row format delimited;(delimited 分割)

每个列进行|分割:fields terminated by ‘|‘

数组我们用,分割:collection items terminated by ‘,‘

键值对我们用:分割:Map keys terminated by ‘:‘

?

原文地址:https://www.cnblogs.com/tudousiya/p/11235237.html

时间: 2024-08-02 22:53:11

hive 基础知识的相关文章

《Programming Hive》读书笔记(二)Hive基础知识

阅读方法:第一遍读是浏览,建立知识索引,因为有些知识不一定能用到,知道就好.感兴趣的部分可以多研究. 以后用的时候再详细看,并结合其他资料一起. Chapter 3.Data Types and File Formats 原始数据类型和集合数据类型 Select出来的数据,列与列之间的分隔符可以指定 Chapter 4.HiveQL:Data Definition 创建数据库,创建和改动表,分区的操作 Chapter 5.HiveQL:Data Manipulation 1 加载数据和导出数据,

《Programming Hive》读书笔记(两)Hive基础知识

:第一遍读是浏览.建立知识索引,由于有些知识不一定能用到,知道就好.感兴趣的部分能够多研究. 以后用的时候再具体看.并结合其它资料一起. Chapter 3.Data Types and File Formats 原始数据类型和集合数据类型 Select出来的数据,列与列之间的分隔符能够指定 Chapter 4.HiveQL:Data Definition 创建数据库,创建和修改表,分区的操作 Chapter 5.HiveQL:Data Manipulation 1 载入数据和导出数据,应该从本

Hive基础知识

一.Hive简介什么是Hive为什么使用Hive面临的问题:为什么要使用Hive:二.Hive结构三.Hive支持的格式四.表的操作创建表删除表清空表修改表修改字段名与字段类型增加列修改列的顺序删除列替换表修改字段顺序其他操作查看表信息查看建表信息查看格式信息改变表文件格式查看函数五.数据操作1.插入数据从文件读取数据从其他结果集插入2.分区和分桶创建分区表查看分区插入分区数据添加分区重命名分区删除分区分区使用分桶六.复合类型ArrayMap七.创建视图和索引以及数据缓存视图创建视图删除视图索引

hive基础知识二

1. Hive的分区表 1.1 hive的分区表的概念 在文件系统上建立文件夹,把表的数据放在不同文件夹下面,加快查询速度. 1.2 hive分区表的构建 创建一个分区字段的分区表 hive> create table student_partition1( id int, name string, age int) partitioned by (dt string) row format delimited fields terminated by '\t'; 创建二级分区表 hive>

hive基础知识四

1. hive表的数据压缩 1.1 数据的压缩说明 压缩模式评价 可使用以下三种标准对压缩方式进行评价 1.压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2.压缩时间:越快越好 3.已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化 常见压缩格式 压缩方式 压缩比 压缩速度 解压缩速度 是否可分割 gzip 13.4% 21 MB/s 118 MB/s 否 bzip2 13.2% 2.4MB/s 9.5MB/s 是 lzo 20.5

hive基础知识五

Hive 主流文件存储格式对比 1.存储文件的压缩比测试 1.1 测试数据 https://github.com/liufengji/Compression_Format_Data ? log.txt 大小为18.1 M 1.2 TextFile 创建表,存储数据格式为TextFile create table log_text ( track_time string, url string, session_id string, referer string, ip string, end_u

hive基础知识三

1. 基本查询 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 1.1 全表和特定列查询 全表查询 select * from student; 选择特定列查询 select empno, ename from emp; 1.2 列起别名 重命名一个列 紧跟列名,也可以在列名和别名之间加入关键字 ‘as’ 案例实操 select ename AS name, deptno dn from emp; 1.3

hive基础知识一

1. Hive是什么 1.1 hive的概念 Hive:由Facebook开源,用于解决海量(结构化日志)的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. 本质是:将Hive SQL转化成MapReduce程序 1.2 Hive与数据库的区别 Hive 具有 SQL 数据库的外表,但应用场景完全不同. Hive 只适合用来做海量离线数据统计分析,也就是数据仓库. 1.3 Hive的优缺点 优点 操作接口采用类SQL语法,提供

最全的Spark基础知识解答

最全的Spark基础知识解答 时间:2016-12-12 12:00:50      阅读:19      评论:0      收藏:0      [点我收藏] 原文:http://www.cnblogs.com/sanyuanempire/p/6163732.html 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架. dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMa