分析Hive表和分区的统计信息(Statistics)

类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。

表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等;

新表的统计信息

对于一个新创建的表,默认情况下,如果通过INSERT OVERWRITE的方式插入数据,那么Hive会自动将该表或分区的统计信息更新到元数据。

有一个参数来控制是否自动统计,hive.stats.autogather,默认为true.

举例来说:

先创建表lxw1234:

  1. CREATE TABLE lxw1234 (
  2. id STRING,
  3. name STRING
  4. ) stored AS textfile;
CREATE TABLE lxw1234 (
id STRING,
name STRING
) stored AS textfile;

在元数据表TABLE_PARAMS中,会有一条记录,记录了该表上次DDL的时间,

该表中的TBL_ID对应TBLS表中的TBL_ID.

关于Hive元数据结构的详细介绍,可参考前一章:

[一起学Hive]之十四-Hive的元数据表结构详解

SELECT  *  FROM  TABLE_PARAMS  WHERE  tbl_id = 45857

TBL_ID PARAM_KEY PARAM_VALUE
45857 transient_lastDdlTime 1436916981

接下来通过INSERT OVERWRITE向表lxw1234中插入数据:

INSERT overwrite TABLE lxw1234 SELECT pt,pcid FROM lxw1;

其实在hive-cli中执行HQL之后,会打印出统计信息:

Table default.lxw1234 stats:

[numFiles=1, numRows=11067, totalSize=376278, rawDataSize=365211]

再查看元数据:

SELECT  *  FROM  TABLE_PARAMS  WHERE  tbl_id = 45857

TBL_ID PARAM_KEY PARAM_VALUE
45857 transient_lastDdlTime 1436917459
45857 numFiles 1
45857 numRows 11067
45857 rawDataSize 365211
45857 totalSize 376278
45857 COLUMN_STATS_ACCURATE true
       

这里的rawDataSize是指原始数据的大小,totalSize是指占用HDFS存储空间大小。

如果再次使用INSERT OVERWRITE方式覆盖该表数据,那么统计信息将会更新。

新分区的统计信息

对于INSERT OVERWRITE方式新增的分区,统计信息同新创建的表,只不过在元数据中存放的表不一样。

  1. CREATE TABLE lxw1234 (
  2. id STRING,
  3. name STRING
  4. ) PARTITIONED BY (day STRING);
CREATE TABLE lxw1234 (
id STRING,
name STRING
) PARTITIONED BY (day STRING);

创建之后,在分区的元数据中还没有任何该表的信息:

SELECT * FROM `PARTITIONS` WHERE tbl_id = 45858

插入数据到一个新的分区:

INSERT overwrite TABLE lxw1234 PARTITION (day = ‘2015-07-15′)

SELECT pt,pcid

FROM lxw1;

执行打印出的统计信息:

Loading data to table default.lxw1234 partition (day=2015-07-15)

Partition default.lxw1234{day=2015-07-15} stats:

[numFiles=1, numRows=11067, totalSize=376278, rawDataSize=365211]

再查看元数据:

SELECT * FROM `PARTITIONS` WHERE tbl_id = 45858

PART_ID CREATE_TIME LAST_ACCESS_TIME PART_NAME SD_ID TBL_ID
56806 1436918167 0 day=2015-07-15 98259 45858

SELECT * FROM PARTITION_PARAMS WHERE PART_ID = 56806

PART_ID PARAM_KEY PARAM_VALUE
56806 transient_lastDdlTime 1436918167
56806 numFiles 1
56806 numRows 11067
56806 rawDataSize 365211
56806 totalSize 376278
56806 COLUMN_STATS_ACCURATE true
       

与分区统计信息相关的元数据表为

PARTITIONS、PARTITION_PARAMS

已存在表或分区的统计信息

对于一个已经存在的表、分区或者外部表,则需要通过ANALYZE命令去手动分析表或分区的统计信息。

  • 外部表
  1. CREATE EXTERNAL TABLE lxw1234 (
  2. id STRING,
  3. name STRING
  4. ) stored AS textfile
  5. location ‘hdfs://namenode/tmp/lxw1234.com/‘;
    CREATE EXTERNAL TABLE lxw1234 (
    id STRING,
    name STRING
    ) stored AS textfile
    location ‘hdfs://namenode/tmp/lxw1234.com/‘;
     

创建之后该表的元数据:

SELECT * FROM TABLE_PARAMS WHERE tbl_id = 45859

TBL_ID PARAM_KEY PARAM_VALUE
45859 transient_lastDdlTime 1436918758
45859 numFiles 0
45859 numRows -1
45859 rawDataSize -1
45859 totalSize 0
45859 COLUMN_STATS_ACCURATE false
45859 EXTERNAL true
       

使用命令分析表lxw1234的统计信息:

ANALYZE TABLE lxw1234 COMPUTE STATISTICS;

该命令也会启动MapReduce去执行,执行之后打印:

Table default.lxw1234 stats:

[numFiles=0, numRows=11067, totalSize=0, rawDataSize=365211]

查看元数据:

SELECT * FROM TABLE_PARAMS WHERE tbl_id = 45859

TBL_ID PARAM_KEY PARAM_VALUE
45859 transient_lastDdlTime 1436918995
45859 numFiles 0
45859 numRows 11067
45859 rawDataSize 365211
45859 totalSize 0
45859 COLUMN_STATS_ACCURATE true
45859 EXTERNAL true
       

对于外部表,并没有统计文件数和总大小,估计是统计了该表默认路径下的文件数和大小了。(外部表在创建的时候,同时也会在默认路径下创建一个空目录,比如:hdfs://namenode/user/hive/warehouse/default.db/lxw1234)

  • 分区

如果通过ALTER TABLE ADD PARTITION的方式增加一个分区,道理上其实和外部表没什么区别;

  1. CREATE TABLE lxw1234 (
  2. id STRING,
  3. name STRING
  4. ) PARTITIONED BY (day STRING);
  5. ALTER TABLE lxw1234 ADD PARTITION (day = ‘2015-07-15‘)
  6. location ‘hdfs://namenode/tmp/lxw1234.com/‘;
CREATE TABLE lxw1234 (
id STRING,
name STRING
) PARTITIONED BY (day STRING);

ALTER TABLE lxw1234 ADD PARTITION (day = ‘2015-07-15‘)
location ‘hdfs://namenode/tmp/lxw1234.com/‘;

查看元数据:

SELECT * FROM PARTITION_PARAMS WHERE PART_ID = 56807

PART_ID PARAM_KEY PARAM_VALUE
56807 transient_lastDdlTime 1436919355
56807 numFiles 20
56807 numRows -1
56807 rawDataSize -1
56807 totalSize 376278
56807 COLUMN_STATS_ACCURATE false
       

很欣慰,通过这种方式增加分区时候,Hive已经将分区所对应的路径中的文件数和总大小统计到元数据中。

再使用命令分析该分区:

ANALYZE TABLE lxw1234 PARTITION (day = ‘2015-07-15′)

COMPUTE STATISTICS;

Partition default.lxw1234{day=2015-07-15} stats:

[numFiles=20, numRows=11067, totalSize=376278, rawDataSize=365211]

再查看元数据:

SELECT * FROM PARTITION_PARAMS WHERE PART_ID = 56807

PART_ID PARAM_KEY PARAM_VALUE
56807 transient_lastDdlTime 1436919604
56807 numFiles 20
56807 numRows 11067
56807 rawDataSize 365211
56807 totalSize 376278
56807 COLUMN_STATS_ACCURATE true

没问题了,已经将行数和原始大小统计进来。

时间: 2024-10-13 01:55:47

分析Hive表和分区的统计信息(Statistics)的相关文章

Sybase数据库收集表及其索引的统计信息

更新表及其索引的统计信息: update table statistics 表名 go update index statistics 表名 go 建议此操作在闲时操作.

SQL Server 统计信息(Statistics)-概念,原理,应用,维护

前言:统计信息作为sql server优化器生成执行计划的重要参考,需要数据库开发人员,数据库管理员对其有一定的理解,从而合理高效的应用,管理. 第一部分 概念 统计信息(statistics):描述某个(些)栏位,索引的数据分布情况.优化器用其评估生成高效执行计划. 密度(density):一个比率值,显示在一个(组)列中有多少唯一值.(实际应用中值越小越好) Density = 1 / Number of distinct values for column(s) 直方图(histogram

如何查看表和索引的统计信息

这几天要求做一个服务器的统计信息,主要针对表和索引.下面我就简单分享几个查询数据表和索引统计信息的方法: 1.使用T-SQL 语句实现: select schema_name(t.schema_id) AS '架构', t.name AS '表名称', i.rows AS '行数', 8 * reserved AS '保留空间(KB)', 8 * dpages AS '已使用的(KB)', 8 * ( reserved - dpages )AS '未使用的(KB)' from sys.table

Hive表的分区与分桶

1.Hive分区表 Hive使用select语句进行查询的时候一般会扫描整个表内容,会消耗很多时间做没必要的工作.Hive可以在创建表的时候指定分区空间,这样在做查询的时候就可以很好的提高查询的效率. 创建分区表的语法: [java] view plain copy create table tablename( name string )partitioned by(key,type...); 示例 [java] view plain copy drop table if exists emp

10G,11G恢复表的统计信息

10G,11G恢复表的统计信息 适用的Oracle Version 10.1.0.2 to 11.2.0.3   oracle 10G开始,当一个表生成新的统计信息的同时,该表的旧统计信息会保留,如果以后依赖该旧统计信息的查询出现性能问题,可以恢复旧的统计信息使该查询使用先前的统计信息来解决可能出现的性能问题oracle 10g,11g 中oracle 对象统计信息默认的保存时间是31天,统计信息在sysaux表空间有存储开销,应该注意sysaux不要被统计信息填满 sql> select DB

Oracle里收集与查看统计信息的方法

Oracle数据库里的统计信息是这样的一组数据:它存储在数据字典里,且从多个维度描述了Oracle数据库里对象的详细信息.CBO会利用这些统计信息来计算目标SQL各种可能的.不同的执行路径的成本,并从中选择一条成本值最小的执行路径来作为目标SQL的执行计划. Oracle数据库里的统计信息可以分为如下6种类型: 表的统计信息 索引的统计信息 列的统计信息 系统统计信息 数据字典统计信息 内部对象统计信息 表的统计信息用于描述Oracle数据库里表的详细信息,它包含了一些典型的维度,如记录数.表块

验证Oracle收集统计信息参数granularity数据分析的力度

最近在学习Oracle的统计信息这一块,收集统计信息的方法如下: DBMS_STATS.GATHER_TABLE_STATS ( ownname VARCHAR2, ---所有者名字 tabname VARCHAR2, ---表名 partname VARCHAR2 DEFAULT NULL, ---要分析的分区名 estimate_percent NUMBER DEFAULT NULL, ---采样的比例 block_sample BOOLEAN DEFAULT FALSE, ---是否块分析

收集oracle统计信息

优化器统计范围: 表统计: --行数,块数,行平均长度:all_tables:NUM_ROWS,BLOCKS,AVG_ROW_LEN:列统计: --列中唯一值的数量(NDV),NULL值的数量,数据分布:             --DBA_TAB_COLUMNS:NUM_DISTINCT,NUM_NULLS,HISTOGRAM:索引统计:--叶块数量,等级,聚簇因子:             --DBA_INDEXES:LEAF_BLOCKS,CLUSTERING_FACTOR,BLEVEL:

ORACLE 收集统计信息

原文链接:http://blog.itpub.net/2317695/viewspace-1226138/ 今天网上看到一篇关于收集统计信息的文章,还不错,特转载下来. 1.     理解什么是统计信息 优化器统计信息就是一个更加详细描述数据库和数据库对象的集合,这些统计信息被用于查询优化器,让其为每条SQL语句选择最佳的执行计划.优化器统计信息包括: ·         表的统计信息 o   行数 o   Block数 o   行平均长度 ·         列的统计信息 o   列中不同值的