高速查询hive数据仓库表中的总条数

Author： kwu

高速查询hive数据仓库中的条数。在查询hive表的条数，通常使用count(*)。可是数据量大的时候，mr跑count(*)往往须要几分钟的时间。

1、传统方式获得总条数例如以下：

select count(*) from ods.tracklog;

执行时间为91.208s

2、与关系库一样hive表也能够通过查询元数据来得到总条数：

select d.NAME,t.TBL_NAME,t.TBL_ID,p.PART_ID,p.PART_NAME,a.PARAM_VALUE
from TBLS t
left join DBS d
on t.DB_ID = d.DB_ID
left join PARTITIONS p
on t.TBL_ID = p.TBL_ID
left join PARTITION_PARAMS a
on p.PART_ID=a.PART_ID
where t.TBL_NAME=‘tracklog‘ and d.NAME=‘ods‘ and a.PARAM_KEY=‘numRows‘;

select FORMAT(sum(a.PARAM_VALUE),0)
from TBLS t
left join DBS d
on t.DB_ID = d.DB_ID
left join PARTITIONS p
on t.TBL_ID = p.TBL_ID
left join PARTITION_PARAMS a
on p.PART_ID=a.PART_ID
where t.TBL_NAME=‘tracklog‘ and d.NAME=‘ods‘ and a.PARAM_KEY=‘numRows‘;

仅仅需0.071s就可以返回

3、说明通过hive元数据的查询总条数，仅仅适用于有partition的表，我们正式表基本都是有partition的，仅仅有部分小表。小于1万条的没有partition，这样的小表count(*)是很快的。

时间： 2024-10-05 01:28:10

高速查询hive数据仓库表中的总条数的相关文章

快速查询hive数据仓库表中的总条数

Author: kwu 快速查询hive数据仓库中的条数,在查询hive表的条数,通常使用count(*),但是数据量大的时候,mr跑count(*)往往需要几分钟的时间. 1.传统方式获得总条数如下: select count(*) from ods.tracklog; 2.与关系库一样hive表也可以通过查询元数据来得到总条数: <pre name="code" class="sql">select d.NAME,t.TBL_NAME,t.TBL_I

mysql 怎么查询出，分组后的总条数。。。也就是有多少组数。。。。怎么写

SELECT COUNT(*) AS 多少组数FROM( SELECT id FROM 表 GROUP BY id) subQuery;Mysql,有一个表含有以下字段,uid 发帖人id,title 发帖标题,tc 发帖内容,time 发帖时间,用一条语句算出昨天发帖书大于10的,一共有多少人? select count(*) from (select distinct startperson_id,count(startperson_id) as num from apphome_finan

分页过滤SQL求总条数SQL正则

public static void main(String[] args) throws Exception { String queryForScanUsers_SQL = "select a.username AS user_name,b.* from tbl_aaa a left join tbl_bbb b where a.id=? limit 10"; //去除WHERE和LIMIT String sqlRegex = "(select\\s+)(.*)(\\s+

Hive通过查询语句向表中插入数据过程中发现的坑

前言最近在学习使用Hive(版本0.13.1)的过程中,发现了一些坑,它们或许是Hive提倡的比关系数据库更加自由的体现(同时引来一些问题),或许是一些bug.总而言之,这些都需要使用Hive的开发人员额外注意.本文旨在列举我发现的2个通过查询语句向表中插入数据过程中的问题,希望大家注意. 数据准备为了验证接下来出现的问题,需要先准备两张表employees和staged_employees,并准备好测试数据.首先使用以下语句创建表employees: create table employ

两个表联合查询获取聊天表中用户最新的一条聊天数据

一个用户表,一个聊天记录表,两个表联合查询获取聊天表中用户最新的一条聊天数据 select c.contentfrom sixin as c where c.tid = a.user_idorder by ctime desc limit 0,1) as content,(select c.statusfrom sixin as c where c.tid = a.user_idorder by ctime desc limit 0,1) as status from users as a, s

使用内链接（A a inner join B b on a.xx = b.xx）查询2个表中某一列的相同的字段。

这里一句代码就是查询2个表中某一列的相同,可是查询出来之后B表因为有很多重复的id数据,然而查询出来的数据需要插入到临时表中,临时表的oid是不允许有重复的, 因此需要用到 distinct 函数来取出重复.

union联合查询将两个表的查询结果在一个表中显示

表格ChannelReward和表格RewardSuppleSettle中都有一下几个字段JSMonth, ChannelNo, RewardSum, RewardItem.要将两个表中RewardSum>0的记录都显示在一个表中,可以使用联合查询 select * from(SELECT JSMonth, ChannelNo, RewardSum, RewardItem, '1' AS ObjectTypeFROM dbo.ChannelRewardWHERE

查询两个表中不同（相同）的数据，并把它们显示出来

查询两个表中不同的数据select ecs_brand.brand_id,ecs_brand.brand_name from 表名ecs_brand where ecs_brand.brand_id not in (select distinct ecs_goods.brand_id from 表名ecs_goods where ecs_goods.is_on_sale = 1 AND ecs_goods.is_alone_sale = 1 AND ecs_goods.is_delete = 0

通过 JDBC 向指定的数据表中插入一条记录，查询记录

//通过 JDBC 向指定的数据表中插入一条记录 /* * 1.Statement: 用于执行SQl语句的对象 * 通过Connection 的createStatement()方法来获取 * 通过executeUptate(sql) 可执行sql语句 * 传入的sql 可以是 insert , update, delete 但不能是select * 2.Connection 和 Statement 需要关闭 * 需要在finally中关闭 * 3.关闭的顺序:先关闭后获取