Hive之基本操作

1，CREATE table.

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment ]，... )]
[COMMENT table_comment ]
[PARTITIONED BY (col_name ,data_type [COMMENT col_comment] , ...]
[CLUSTERED BY (col_name , col_name, ...) [STORED BY (col_name [ASC | DESC], ... )] INTO num_buckets BUCKETS]
[
 [ROW FORMAT ] [STORED AS file_format]
| STORED BY ‘storage.handler.class.name‘ [ WITH SERDEPROPERTIES (...) ] ] [LOCATION hdfs_path] [TBLPROPERTIES (property_name=property_value, ...)] [AS select_statement] CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name LIKE existing_table_name [LOCATION hdfs_path]

基本数据类型

data_type
    : primitive_type
    | array_type
    | map_type
    | struct_type

primitive_type

    : TINYINT
    | SMALLINT
    | INT
    | BIGINT
    | FLAOT
    | DOUBLE
    | BOOLEAN
    | STRING

array_type
    : ARRAY <data_type>

map_type
    : MAP <primitive_type , data_type>

struct_map
    : STRUCT <col_name : data_type [COMMENT] , ...... >

介绍
? CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常。
? EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
? LIKE 允许用户复制现有的表结构，但是不复制数据。
? 用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表的具体的列的数据。
? 如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCE 。
? 有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行 CLUSTERED BY 操作，将若干个列放入一个桶（bucket）中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。
? 表名和列名不区分大小写，SerDe 和属性名区分大小写。表和列的注释是字符串。

参考 : https://www.imooc.com/article/9265

原文地址：https://www.cnblogs.com/rrttp/p/9024188.html

时间： 2024-10-07 03:41:28

Hive之基本操作

Hive之基本操作的相关文章

Hive的基本操作详解

2、hive的基本操作

hive的基本操作

hive的基本操作与应用

Hive HQL基本操作

第2节 hive基本操作：6、7、8

Hive部署及优化配置

Hive的工作原理和相关操作

BG.Hive - part1