hive SQL count时的'\N'

Hive中有种假NULL，它看起来和NULL一摸一样，但是实际却不是NULL。

例如如下这个查询：

hive> desc ljn004;

a string

Time taken: 0.237 seconds

hive> select a from ljn004;

NULL

Time taken: 46.232 seconds

看上去好像ljn004的a字段保存了一个 NULL，

但是换一个查询会发现它和NULL并不一样：

hive> select a from ljn004 where a is null;

Time taken: 62.56 seconds

来看一下实际存储的是什么：

hive> select * from ljn004;

Time taken: 1.232 seconds

hive> select a from ljn004 where a = ‘\\N‘;

NULL

Time taken: 72.933 seconds

ljn004的a字段实际存储的是一个‘\N‘，a = ‘\\N‘是因为Hive中‘\‘是转义字符，需要对‘\‘进行一次转义，所以变成‘\\N‘。

这种假NULL产生的原因实际上源于对表的错误操作。在Hive中，空值NULL在底层默认是用‘\N‘来存储的，看一个例子：

hive> create table ljn005 (col1 string);

Time taken: 1.258 seconds

1 Rows loaded to ljn005

Time taken: 63.727 seconds

hive> insert overwrite table ljn005 select NULL from dual;

然后看一下底层的数据存储：

$ hadoop fs -cat /group/hive/ljn005/attempt_201205041518_256192_m_000000_0

可以看到底层数据将NULL存储成了‘\N‘ 。

这样的设计存在一个问题是如果实际想存储‘\N‘，那么实际查询出来的也是NULL而不是‘\N‘ 。

Hive给出一种并非完美的解决方法就是可以自定义底层用什么字符来表示NULL。

例如我想用字符‘a‘来表示NULL：

hive> alter table ljn005 SET SERDEPROPERTIES(‘serialization.null.format‘ = ‘a‘);

Time taken: 0.175 seconds

hive> insert overwrite table ljn005 select NULL from dual;

1 Rows loaded to ljn005

Time taken: 62.66 seconds

再看一下底层的存储：

$ hadoop fs -cat /group/hive/ljn005/attempt_201205041518_256764_m_000000_0

这时候底层的存储就变成了‘a‘ ，今后插入到这张表中的‘a‘查询出来就变成了NULL而不是‘a‘ 。

其实上面说的这个假NULL出现的原因就是在默认情况下（即用‘\N‘表示NULL），插入了NULL值，然后又用SET SERDEPROPERTIES语句修改了存储NULL的字符串。这时候表的属性修改了，但是底层存储的文件并没有修改。而‘\N‘显示为NULL在Hive中又是一个特例，于是就出现了这个假NULL，在开发过程中一定要注意！

hive SQL count时的'\N'

时间： 2024-12-21 00:39:06

hive SQL count时的'\N'的相关文章

Hive sql去重

1.数据背景:首先,公司,2019年4月15日有335150条订单,各条订单中都有唯一的标识ID(order_id)对应一笔交易. 根据交易流程,在系统上报该交易信息时依次会有已下单.已支付.已发货.配送中.已接收.已退货.已退款等多种事务状态,而且每个事务的发生都会在Hive表中生成一条记录.因此,当天实际交易量(唯一order_id)可能只有70000单左右. 2.作业参数:在执行Hive sql作业前,需要评估原始数据量,然后配置Hive中mapper和reducer的执行参数. set

Hive SQL的编译过程

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用.美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析.Hive的稳定性和性能对我们的数据分析非常关键. 在几次升级Hive的过程中,我们遇到了一些大大小小的问题.通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入的理解.对这一过程的理解不仅帮助我们解决了一些Hive的bug,也有利于我们优化Hive SQL

Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持

Hive SQL 编译过程

转自:http://www.open-open.com/lib/view/open1400644430159.html Hive跟Impala貌似都是公司或者研究所常用的系统,前者更稳定点,实现方式是MapReduce,因为用Hue的时候,在groupby中文的时候,出现了点问题,并且看到写很长的SQL语句,经常会看到起很多个Job,因此想了解下Hive怎么将SQL转化成MapReduce的Job.以后写SQL的时候,大概就了解怎么去做优化了.下面是看到的一片优秀的文章(美团的技术博客),我粘过

hive sql 语法详解

(转)Hive SQL的编译过程

本文来着美团 :http://tech.meituan.com/hive-sql-to-mapreduce.html Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用.美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析.Hive的稳定性和性能对我们的数据分析非常关键. 在几次升级Hive的过程中,我们遇到了一些大大小小的问题.通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapRedu