Hive学习笔记(二)

类型转换

hive原子数据类型可以进行隐式数据类型转换,如果某个表达式使用INT,那么TINYINT会转化为INT,hive不会进行反向转换,除非使用cast才操作。

数据类型转化规则

任何整数类型都会转换为范围更广的类型。

所有整数类型、FLOAT、STRING类型都能隐式转换为double类型。

TINYINT、SMALLINY、INT都可以转换为FLOAT

BLOOEAN 不能转换为任何其他数据类型

cast进行显式数据类型转换:

eg:CAST(‘1’,AS INT) 将字符串’1’转换为整数值 1

如果cast执行转换失败,表达式会返回空值NULL

复杂数据类型:

hive有三种复杂数据类型:ARRAY、MAP和STRUCT .

ARRAY和MAP和java中的同名数据类型类似,STRUCT是记录类型,它封装一个字段的命名集合 。

复杂数据类型允许任意层次的嵌套。

复杂数据类型声明必须使用尖括号符号指明其中的数据字段类型。

eg:

CREATE TABLE complex(
  col1 ARRAY<INT>,
  col2 MAP<STRING,INT>,
  col3 STRUCT<a:STRING,b:INT,c:DOUBLE>
);

下面展示每种类型的字段访问操作:

select col1[0],col2[‘b‘],col.c FROM complex;

操作与函数:

hive提供的操作包括:

关系操作:等值判断(x=’a’),空值判断(x IS NULL),模式匹配(x LIKE ‘A%’)

算术操作:加法:x+1

逻辑操作:逻辑或OR(x OR y)

在mysql和hive中,字符串连接用concat函数

hive内置函数:

hive提供了很多内置函数,分为这几大类:

数学和统计函数、字符串函数、日期函数、条件函数 、聚集函数以及处理 XML(使用xpath函数)和JSON 函数。

在hive外壳环境中用 show functions 可以获取函数列表,要了解具体函数使用帮助使用describe命令 :

describe function length;    

表:

hive表格逻辑上由存储的数据和描述数据格式的元数据组成,数据一般存放在HDFS中,也可以存放在其他hadoop文件系统中,包括 本地系统和S3。hive把元数据存放在关系型数据库中。

托管表和外部表

hive创建表,默认是hive负责管理数据,hive把数据移入它的“仓库目录”。另一种方式是外部表,这样hive可以访问仓库目录以外的数据。

两种表的区别在load和drop的语义上:

托管表:把数据加载到托管表时,hive会把数据数据移到仓库目录。

eg:

create table t1( dummy String);
load data inpath ‘/usr/tom/test.txt‘ into table t1;

把文件hdfs://usr/tom/test.txt移动到hive的仓库目录中,即hdfs://usr/hive/warehouse/t1。

加载操作仅是文件系统中文件的移动,即便是托管表,也不检查数据和表中声明的模式是否匹配,通过查询为缺失的字段返回为NULL,从而检查数据是否被正确解析。

要丢弃一个表:

drop table t1;

这个表会被删除,包括表的元数据和数据,load是一个移动操作,drop是一个删除操作。数据会彻底消失,这就是hive托管数据的定义。

外部表:与托管表不同的是,外部表由你来控制控制数据的创建和删除, 外部数据的位置需要在创建表的时候指明:

create  external table  t2(dummy String)
location ‘/usr/tom/t2‘ ;
load data inpath ‘/usr/tom/test.txt‘ into table t2;

使用external 关键字,hive知道数据并不由自己管理,因此不会把数据移到自己的仓库目录。事实上, 在定义时,hive不会检查外部位置是否存在,这样的话就可以 把创建数据推迟到创建表后进行。

丢弃外部表,hive不碰数据,只会删除元数据。

如何选择使用哪种表:

除drop语义外,两种方式没有多大区别。所有处理都有hive完成,应该使用托管表。如果用hive和其他工具来处理统一数据。应该使用外部表。普遍做法是把HDFS(由其他进程创建)的初始数据集用作外部表使,然后用hive的变换功能把数据移到托管的hive表,反之也成立。外部表(未必在hdfs中)可以用于从 hive导出数据供其他应用程序使用。使用hive的另一个原因是为同一数据关联不同模式。

小结:

主要学习hive里的hive原子类型转换、复杂数据类型、操作与函数、hive的表,分为托管表和外部表,它们的定义、区别和什么时候使用,它们最大的区别在与drop语义不同,托管表里的drop操作会删除掉表的元数据和数据,而外部表只会删除掉元数据。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-13 20:19:27

Hive学习笔记(二)的相关文章

Caliburn.Micro学习笔记(二)----Actions

Caliburn.Micro学习笔记(二)----Actions 上一篇已经简单说了一下引导类和简单的控件绑定 我的上一个例子里的button自动匹配到ViewModel事件你一定感觉很好玩吧 今天说一下它的Actions,看一下Caliburn.Micro给我们提供了多强大的支持 我们还是从做例子开始 demo的源码下载在文章的最后 例子1.无参数方法调用 点击button把textBox输入的文本弹出来 如果textbox里没有文本button不可点,看一下效果图 看一下前台代码 <Stac

2. 蛤蟆Python脚本学习笔记二基本命令畅玩

2. 蛤蟆Python脚本学习笔记二基本命令畅玩 本篇名言:"成功源于发现细节,没有细节就没有机遇,留心细节意味着创造机遇.一件司空见惯的小事或许就可能是打开机遇宝库的钥匙!" 下班回家,咱先来看下一些常用的基本命令. 欢迎转载,转载请标明出处:http://blog.csdn.net/notbaron/article/details/48092873 1.  数字和表达式 看下图1一就能说明很多问题: 加法,整除,浮点除,取模,幂乘方等.是不是很直接也很粗暴. 关于上限,蛤蟆不太清楚

小猪的数据结构学习笔记(二)

小猪的数据结构学习笔记(二) 线性表中的顺序表 本节引言: 在上个章节中,我们对数据结构与算法的相关概念进行了了解,知道数据结构的 逻辑结构与物理结构的区别,算法的特性以及设计要求;还学了如何去衡量一个算法 的好坏,以及时间复杂度的计算!在本节中我们将接触第一个数据结构--线性表; 而线性表有两种表现形式,分别是顺序表和链表;学好这一章很重要,是学习后面的基石; 这一节我们会重点学习下顺序表,在这里给大家一个忠告,学编程切忌眼高手低,看懂不代表自己 写得出来,给出的实现代码,自己要理解思路,自己

JavaScript--基于对象的脚本语言学习笔记(二)

第二部分:DOM编程 1.文档象模型(DOM)提供了访问结构化文档的一种方式,很多语言自己的DOM解析器. DOM解析器就是完成结构化文档和DOM树之间的转换关系. DOM解析器解析结构化文档:将磁盘上的结构化文档转换成内存中的DOM树 从DOM树输出结构化文档:将内存中的DOM树转换成磁盘上的结构化文档 2.DOM模型扩展了HTML元素,为几乎所有的HTML元素都新增了innerHTML属性,该属性代表该元素的"内容",即返回的某个元素的开始标签.结束标签之间的字符串内容(不包含其它

马哥学习笔记二十四——分布式复制快设备drbd

DRBD: 主从 primary: 可执行读.写操作 secondary: 文件系统不能挂载 DRBD: dual primay, 双主(基于集群文件系统的高可用集群) 磁盘调度器:合并读请求,合并写请求: Procotol:drbd数据同步协议 A: Async, 异步  数据发送到本机tcp/ip协议栈 B:semi sync, 半同步  数据发送到对方tcp/ip协议 C:sync, 同步  数据到达对方存储设备 DRBD Source: DRBD资源 资源名称:可以是除了空白字符外的任意

【Unity 3D】学习笔记二十八:unity工具类

unity为开发者提供了很多方便开发的工具,他们都是由系统封装的一些功能和方法.比如说:实现时间的time类,获取随机数的Random.Range( )方法等等. 时间类 time类,主要用来获取当前的系统时间. using UnityEngine; using System.Collections; public class Script_04_13 : MonoBehaviour { void OnGUI() { GUILayout.Label("当前游戏时间:" + Time.t

Spring Batch学习笔记二

此系列博客皆为学习Spring Batch时的一些笔记: Spring Batch的架构 一个Batch Job是指一系列有序的Step的集合,它们作为预定义流程的一部分而被执行: Step代表一个自定义的工作单元,它是Job的主要构件块:每一个Step由三部分组成:ItemReader.ItemProcessor.ItemWriter:这三个部分将执行在每一条被处理的记录上,ItemReader读取每一条记录,然后传递给ItemProcessor处理,最后交给ItemWriter做持久化:It

angular学习笔记(二十八)-$http(6)-使用ngResource模块构建RESTful架构

ngResource模块是angular专门为RESTful架构而设计的一个模块,它提供了'$resource'模块,$resource模块是基于$http的一个封装.下面来看看它的详细用法 1.引入angular-resource.min.js文件 2.在模块中依赖ngResourece,在服务中注入$resource var HttpREST = angular.module('HttpREST',['ngResource']); HttpREST.factory('cardResource

Swift学习笔记(二)参数类型

关于参数类型,在以前的编程过程中,很多时间都忽视了形参与实参的区别.通过这两天的学习,算是捡回了漏掉的知识. 在swift中,参数有形参和实参之分,形参即只能在函数内部调用的参数,默认是不能修改的,如果想要修改就需要在参数前添加var声明. 但这样的声明过后,仍旧不会改变实参的值,这样就要用到inout了,传递给inout的参数类型必须是var类型的,不能是let类型或者字面类型,(字面类型是在swift中常提的一个术语,个人认为就是赋值语句,也不能修改)而且在传递过程中,要用传值符号"&

加壳学习笔记(二)-汇编基础

7.简单的汇编语法:   堆栈平衡  PUSH,POP功能: 把操作数压入或取出堆栈语法: PUSH 操作数 POP 操作数格式: PUSH r PUSH M PUSH data POP r POP mPUSHF,POPF,PUSHA,POPA功能: 堆栈指令群格式: PUSHF POPF PUSHA POPAADD,ADC功能: 加法指令语法: ADD OP1,OP2 ADC OP1,OP2格式: ADD r1,r2 ADD r,m ADD m,r ADD r,data影响标志: C,P,A,