hive的两种表

1.内部表

  • 内部表在LOAD数据时,如果使用LOCAL关键字,Hive会把本地文件系统中的数据文件复制到Hive的 /warehouse 目录。反之,则是将HDFS上的数据文件剪切到 /warehouse 目录。
  • Hive在LOAD数据时,并不检查目录中的文件是否符合为表所声明的模式。只有通过SELECT查询返回空值NULL,才能确定不匹配。
  • 内部表删除时,表的元数据(mysql中)和数据文件(hdfs中)都会被删除。
create table book (id bigint, name string) row format delimited fields terminated by ‘\t‘;

2.外部表

  • 外部表:只需在创建表时显示的指定表中数据的存储位置即可。Hive不会把数据剪切到自己的目录。
  • 实际上,在创建表时,Hive甚至不会检查这一外部位置是否存在。这是一个非常重要的特性,因为这意味着可以先创建表,再上传数据文件。
  • 如果不显示指定外部表的存放路径,这样Hive将在HDFS上的 /user/hive/warehouse/ 文件夹下创建一个以外部表表名的文件夹,并将属于这个表的数据存放在这里
  • 对于以下命令,执行成功后,会在hdfs上自动创建空目录‘/book‘用来存储数据文件。
  • 外部表在删除表时,不会碰数据文件,而只会删除元数据信息,即HDFS上的‘/book‘目录依旧存在。
create external table book (id bigint, name string) row format delimited fields terminated by ‘\t‘ location ‘/book‘;

最后归纳两种表的区别:

  1. 在导入数据到外部表,数据并没有移动到 ‘/user/hive/warehouse/T_Name‘目录下,也就是说外部表中的数据并不是由它自己来管理的!而内部表则不一样;
  2. 在删除内部表的时候,Hive将会把属于内部表的元数据和数据文件全部删掉;而删除外部表的时候,Hive仅仅删除外部表的元数据,数据文件是不会删除的!

3.两种表的选择

  • 所有的处理都由Hive完成,应该使用内部表。
  • Hive和其他工具共同处理同一数据集,或者,为同一个数据集关联不同的模式使用外部表。

4.存储格式

  • 如果在创建表时没有用row format或stored as子句,那么Hive使用默认格式来分割的每一行。
  • 默认的行内分隔符不是制表符,而是ASCII控制码集合中的Control-A(它的ASCII码为1)
  • 这是因为它出现在文本中的概率相对于制表符来说概率更小。
CREATE TABLE records ( id string ) Row Format Delimited Fields Terminated By ‘\t’ ;

  英语解释:行内格式的限定符以 ‘ \t ‘结尾终止

时间: 2024-11-10 00:27:44

hive的两种表的相关文章

SELECT INTO 和 INSERT INTO SELECT 两种表复制语句

SELECT * into xnbData from (select * from xnbXlsData) select * INTO xnbData from xnbXlsData  ------------------------------ Insert是T-sql中常用语句,Insert INTO table(field1,field2,...) values(value1,value2,...)这种形式的在应用程序开发中必不可少.但我们在开发.测试过程中,经常会遇到需要表复制的情况,如

select into from和insert into select from两种表复制语句区别

select into from和insert into select from两种表复制语句区别 select * into target_table from source_table; insert into target_table(column1,column2) select column1,5 from source_table; 以上两句都是将源表source_table的记录插入到目标表target_table,但两句又有区别.第一句(select into from)要求目标

jQuery使用serialize(),serializeArray()方法取得表单数据+字符串和对象类型两种表单提交的方法

原始form表单值获取方式(手动): $.ajax({ type: "POST", url: "ajax.php", data: "Name=摘取天上星&position=IT技术", success: function(msg){alert(msg);}, error: function(error){alert(error);} }); JQ serialize()方法取值: $.ajax({ type: "POST&quo

SQL中两种表复制语句

Insert是T-sql中常用语句,Insert INTO table(field1,field2,...) values(value1,value2,...)这种形式的在应用程序开发中必不可少.但我们在开发.测试过程中,经常会遇到需要表复制的情况,如将 一个table1的数据的部分字段复制到table2中,或者将整个table1复制到table2中,这时候我们就要使用SELECT INTO 和 INSERT INTO SELECT 表复制语句了. 1.INSERT INTO SELECT语句

oracle数据库【表复制】insert into select from跟create table as select * from 两种表复制语句区别

create table  as select * from和insert into select from两种表复制语句区别 [sql] view plain copy create table targer_table as select * from source_table insert into target_table(column1,column2) select column1,column2 from source_table 以上两句都是将源表source_table的记录插

INNODB与MyISAM两种表存储引擎区别

mysql数据库分类为INNODB为MyISAM两种表存储引擎了,两种各有优化在不同类型网站可能选择不同,下面小编为各位介绍mysql更改表引擎INNODB为MyISAM技巧. 常见的mysql表引擎有INNODB和MyISAM,主要的区别是INNODB适合频繁写数据库操作,MyISAM适合读取数据库的情况多一点,如何把表引擎INNODB更改为MyISAM呢? 使用以下mysql sql语句,可以给表设定数据库引擎: ALTER TABLE `wp_posts` ENGINE = MyISAM;

PostgreSQL SELECT INTO和INSERT INTO SELECT 两种表复制语句

SELECT INTO和INSERT INTO SELECT两种表复制语句都可以用来复制表与表之间的数据,但是它们之间也有区别. 建表语句: bas_custom_rel表 CREATE TABLE "public"."bas_custom_rel" ("uuid" int8 NOT NULL,"kunnrkh" varchar(100) COLLATE "default","zfdel"

MySQL两种表存储结构MyISAM和InnoDB的性能比较测试

转载 http://www.jb51.net/article/5620.htm MySQL支持的两种主要表存储格式MyISAM,InnoDB,上个月做个项目时,先使用了InnoDB,结果速度特别慢,1秒钟只能插入10几条.后来换成MyISAM格式,一秒钟插入上万条.当时决定这两个表的性能也差别太大了吧.后来自己推测,不应该差别这么慢,估计是写的插入语句有问题,决定做个测试:测试环境:Redhat Linux9,4CPU,内存2G,MySQL版本为4.1.6-gamma-standard测试程序:

oracle SELECT INTO 和 INSERT INTO SELECT 两种表复制语句详解

我们经常会遇到需要表复制的情况,如将一个table1的数据的部分字段复制到table2中,或者将整个table1复制到table2中,这时候我们就要使用SELECT INTO 和 INSERT INTO SELECT 表复制语句了. 1.INSERT INTO SELECT语句 语句形式为:Insert into Table2(field1,field2,...) select value1,value2,... from Table1 注意:(1)要求目标表Table2必须存在,并且字段fie