hadoop之hive集合数据类型

除了string，boolean,date等基本数据类型之外,hive还支持三种高级数据类型：

1.ARRAY

ARRAY类型是由一系列相同数据类型的元素组成，这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits，它是由[‘apple‘,‘orange‘,‘mango‘]组成，那么我们可以通过fruits[1]来访问元素orange，因为ARRAY类型的下标是从0开始的；

2.MAP

MAP包含key->value键值对，可以通过key来访问元素。比如”userlist”是一个map类型，其中username是key，password是value；那么我们可以通过userlist[‘username‘]来得到这个用户对应的password；

3.STRUCT

STRUCT可以包含不同数据类型的元素。类似于一个对象，这些元素可以通过”点语法”的方式来得到所需要的元素，比如user是一个STRUCT类型，那么可以通过user.address得到这个用户的地址。
UNION: UNIONTYPE，他是从Hive 0.7.0开始支持的。

--我们创建一张基于基本数据类型和集合数据类型的表
CREATE TABLE employees (
    name STRING,
    salary FLOAT,
    subordinates ARRAY<STRING>,
    deductions MAP<STRING, FLOAT>,
    address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>
) PARTITIONED BY (country STRING, state STRING);
ROW FORMAT DELIMITED
FIELDS TEMINATED BY ‘\001‘
COLLECTION ITEMS TERMINATED BY ‘\002‘
MAP KEYS TEMINATED BY ‘\003‘
LINES TERMINATED BY ‘\n‘
SORTED BY TEXTFILE;

--如果想要查询里面的数据，可以用下面的SQL

select name,salary,subordinates[0],deductions[‘key‘],address.city from employees;

原文地址：https://www.cnblogs.com/wangbin2188/p/8252513.html

时间： 2024-10-04 21:25:41

hadoop之hive集合数据类型的相关文章

Hive集合数据类型

Hive的列除了支持基本的数据类型外,还支持使用Struct.Map和Array三种集合数据类型. 假设某表有如下一行,我们用JSON格式来表示其数据结构.在Hive下访问的格式为 { "name": "John Doe", "salary": 100000.0 , "subordinates": ["Mary Smith" , "Todd Jones"] , //列表Array, su

hadoop笔记之Hive的数据类型

Hive的数据类型 Hive的数据类型前面说过,Hive是一个数据仓库,相当于一个数据库.既然是数据库,那么就必须能创建表,既然有表,那么当中就有列,列中就有对应的类型总的来讲,hive的数据类型可以分为三类: 基本数据类型: tinyint/smallint/int/bigint:整数类型 float/double:浮点数类型 boolean:布尔类型 string:字符串类型复杂数据类型 Array:数组类型,由一系列相同数据类型的元素组成 Map:集合类型,包含key–>value键

hive[3] 数据类型和文件格式

Hive 支持关系型数据库中的大多数据基本数据类型,同时也支持3种集合类型: 3.1 Hive 的基本数据类型支持多种不同他度的整形和浮点型数据类型,具体如下(全都是保留字): tinyint 1byte 有符号整数 smalint 2byte有符号号数 int 4byte有符号号数 bigint 8byte有符号号数 boolean 布尔类型, true 或者 false float 单精度浮点数 double 双精度浮点数 string 字符

Hadoop之Hive

1.Hive 官方网址:http://hive.apache.org/ ? 什么是Hive?(***了解***) l Hive 是建立在 Hadoop上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 HiveQL ,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 re

hive的数据类型和数据模型

关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型.今天本文介绍hive的数据类型,数据模型以及文件存储格式.这些知识大家可以类比关系数据库的相关知识. 首先我要讲讲hive的数据类型. Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型. 原子数据类型包括数值型.布尔型和字符串类型,具体如下表所示: 基本数据类型类型描述示例 TINYINT 1个字节(8位)有符号整数 1 SMALLINT 2字节(16位)有符号整数

结合手机上网流量业务来说明Hadoop中的自定义数据类型（序列化、反序列化机制）

大家都知道,Hadoop中为Key的数据类型必须实现WritableComparable接口,而Value的数据类型只需要实现Writable接口即可:能做Key的一定可以做Value,能做Value的未必能做Key.但是具体应该怎么应用呢?--本篇文章将结合手机上网流量业务进行分析. 先介绍一下业务场景:统计每个用户的上行流量和,下行流量和,以及总流量和. 本次描述所用数据: 日志格式描述: 日志flowdata.txt中的具体数据: 接下来贴出详细代码,代码中含有详细注释,从代码中可以看出,

《Programming Hive》读书笔记（一）Hadoop和hive环境搭建

<Programming Hive>读书笔记(一)Hadoop和Hive环境搭建先把基本的技术和工具学好,才能更高效地思考和工作. Chapter 1.Introduction 简介 Chapter 2.Getting Started 环境配置 Hadoop版本会更新,以官方安装教程为准 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_O

page74-泛型可迭代的基础集合数据类型的API-Bag+Queue+Stack

[泛型可迭代的基础集合数据类型的API] 背包:就是一种不支持从中删除元素的集合数据类型——它的目的就是帮助用例收集元素并迭代遍历所有收集到的元素.(用例也可以检查背包是否为空, 或者获取背包中元素的数量) public class Bag<Item> implements Iterable<Item> Bag() 创建一个空背包 void add(Item item) 添加一个元素 boolean isEmpty() 背包是否为空 int size() 背包中的元素数量使用Ba

Hive 5、Hive 的数据类型和 DDL Data Definition Language) (1)

官方帮助文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL Hive的数据类型 -- 扩展数据类型data_type : primitive_type | array_type | map_type | struct_type | union_type -- (Note: Available in Hive 0.7.0 and later) array_type : ARRAY < data_type >

猜你喜欢

Wordpress页面判断

is_single() 判断是否是文章页面 is_single('2')/is_single(2)判断是否是具体文章(id=2)的页面 is_single('')判断是否是具体文章(标题为Beef S ...

未能正确加载包“Microsoft.Data.Entity.Design.Package.MicrosoftDataEntityDesignPackage

本文出处:http://blog.sina.com.cn/s/blog_6fe3efa301016i64.html vs 2005 ,vs 2008, vs 2010,安装后有时出现这个错误(我的机器 ...

Javascript文件中的控制器I

<!DOCTYPE html><html><head><meta http-equiv="Content-Type" content=&q ...

xCode中使用版本控制git

项目有多人协作的时候需要使用版本管理工具,常用的版本控制软件有git和svn. git的官网地址:http://git-scm.com/ svn地址:http://subversion.apache. ...

HSF的原理分析

http://blog.csdn.net/qq_16681169/article/details/72512819 一．HSF的基本概念 HSF全称为High-Speed Service Framew ...

<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/>是什么?

这是ASP.NET网站用来存储客户端的隐藏信息有3种办法解决: 1. 禁用viewstat 1 this.EnableViewState = false; 2.去掉页面上所有的服务器标记 1 run ...

小端大端

一:什么是大小端大端模式,是指数据的高字节保存在内存的低地址中,而数据的低字节保存在内存的高地址中,这样的存储模式有点儿类似于把数据当作字符串顺序处理:地址由小向大增加,而数据从高位往低位放:这和我 ...

MongoDB数据库迁移

1.mongodump(导出) 命令格式:mongodump -h host:port -d dbname -u user -p pwd -o D:\data\dump 2.mongorestore( ...

PHP while 循环

PHP while 循环在指定条件为 true 时执行代码块. PHP 循环在您编写代码时,经常需要反复运行同一代码块.我们可以使用循环来执行这样的任务,而不是在脚本中添加若干几乎相等的代码行. 在 ...

HTML5表单元素新特新

1.新表单元素全部都是由input标签组成 1.1 email 1.2 url 注意:输入的内容必须以http:// 1.3 search 1.4 range 范围属性: min : 最小值 ma ...

C语言库函数大全及应用实例十二

原文:C语言库函数大全及应用实例十二 [编程资料]C语言库函数大全及应用实例十二函数名: setrgbpalette ...

前端性能优化-HTTP压缩

什么是HTTP压缩 HTTP压缩是指: Web服务器和浏览器之间压缩传输的"文本内容"的方法. HTTP采用通用的压缩算法,比如gzip来压缩HTML,Javascript, CS ...

ACM题目————棋盘问题

Description 在一个给定形状的棋盘(形状可能是不规则的)上面摆放棋子,棋子没有区别.要求摆放时任意的两个棋子不能放在棋盘中的同一行或者同一列,请编程求解对于给定形状和大小的棋盘,摆放k个棋子 ...

UVa 679 一个不足10行的写法。

精髓就是我们判断一个数在每个节点处是奇是偶. #include<cstdio> #include<cmath> #include<cctype> #include& ...

hihocoder offer收割编程练习赛12 C 矩形分割

思路: 模拟,深搜. 实现: 1 #include <iostream> 2 #include <cstdio> 3 #include <string> 4 usi ...

Oracle-Plsql新建用户权限解读

使用plsql创建用户并授权(图形化界面) 使用sys用户登录数据库(或者有dba权限的[还不知道具体的区别,但是能用]) 在左边的对象列表中找到USERS,右键点击USERS,选择"新建用 ...

ExtJs-学习篇(1)

全局Global.js: 1.1 一些公用的信息: Ext.BLANK_IMAGE_URL="/Web/ext-3.1.0/resources/images/default/s.gif&qu ...

ArrayList删除元素

1. 用for循环(只能递减遍历) public static void main(String[] args) { List<String> list = new ArrayList&l ...

C#中的BackgroundWorker控件

C#中的BackgroundWorker控件 Keywords: C# .NET BackgroundWorkerSource: http://txw1958.cnblogs.com/ Backgro ...

12.JAVA编程思想——集合的类型

12.JAVA编程思想--集合的类型欢迎转载,转载请标明出处:http://blog.csdn.net/notbaron/article/details/51100510 标准Java 1.0 和1 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.027 s.