根据日期进行表分区

一 使用SpagoBI和Hive进行互联网统计分区问题?

1 原来根据年月日进行分区再拼接SQL时会异常复杂,需要在Where条件后判断是否跨年,跨月,跨日等问题。

2 Hive的自定义函数不能再Where条件后返回字符串条件来进行数据筛选,但是可以返回boolean进行数据过滤,

比如:自定义函数date_where(startTime, endTime),根据开始日期和结束日期返回格式为:

year=2015 and month=08 and day > 1 and day < 10 拼接到Where date_where("2015-08-01", "2015-08-10")不支持。

二 根据上述问题,通过日期(dt)建立分区

Step1 创建数据库

1 创建tvlog_test数据库 create database tvlog_test;

Step2 创建数据表

1 创建tvlog_tcl数据表

create table if not exists tvlog_test.tvlog_tcl(

id string,

userid string,

channelid string,

channelname string,

region string,

channelcode string,

ip string,

starttime string,

endtime string,

fromchannel string,

tochannel string,

mac string,

deviceid string,

dnum string

)

partitioned by (dt string)

stored as orc;

2 创建epg_wiki_info数据表

create table if not exists tvlog_test.epg_wiki_info(

id string,

name string,

starttime string,

endtime string,

wikiscreenshots array<string>,

wikicover map<string, string>,

wikititle string,

tags array<string>,

wikiid string,

channelcode string,

channelname string,

timestamp string

)

partitioned by (dt string)

stored as orc;

Step3 开启Hive动态分区插入

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

set hive.exec.max.dynamic.partitions.pernode=1000;

Step4 插入数据(2015-09-01 ~ 2015-09-05)

1 向tvlog_test.tvlog_tcl表插入数据

insert overwrite table tvlog_test.tvlog_tcl

partition (dt)

select id, userid, channelid, channelname, region,

channelcode, ip, starttime, endtime, fromchannel,

tochannel, mac, deviceid, dnum, dt

from tvlog.tvlog_tcl

where year = 2015 and month = 9 and (day between 1 and 5);

2 向tvlog_test.epg_wiki_info表插入数据

insert overwrite table tvlog_test.epg_wiki_info

partition (dt)

select id, name, starttime, endtime, wikiscreenshots, wikicover,

wikititle, tags, wikiid, channelcode, channelname, timestamp, dt

from tvlog.epg_wiki_info

where dt between ‘2015-09-01‘ and ‘2015-09-05‘;

时间: 2024-07-30 06:18:53

根据日期进行表分区的相关文章

MySQL的表分区

一.什么是表分区通俗地讲表分区是将一大表,根据条件分割成若干个小表.mysql5.1开始支持数据表分区了.如:某用户表的记录超过了600万条,那么就可以根据入库日期将表分区,也可以根据所在地将表分区.当然也可根据其他的条件分区. 二.为什么要对表进行分区为了改善大型表以及具有各种访问模式的表的可伸缩性,可管理性和提高数据库效率. 分区的一些优点包括:      1).与单个磁盘或文件系统分区相比,可以存储更多的数据.      2). 对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有

mysql表分区(摘自 MySQL表的四种分区类型)

一.什么是表分区通俗地讲表分区是将一大表,根据条件分割成若干个小表.mysql5.1开始支持数据表分区了. 如:某用户表的记录超过了600万条,那么就可以根据入库日期将表分区,也可以根据所在地将表分区.当然也可根据其他的条件分区. 二.为什么要对表进行分区为了改善大型表以及具有各种访问模式的表的可伸缩性,可管理性和提高数据库效率. 分区的一些优点包括: 与单个磁盘或文件系统分区相比,可以存储更多的数据.对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有关的分区,很容易地删除那些数据.相

MySQL 表分区详解

一.什么是表分区通俗地讲表分区是将一大表,根据条件分割成若干个小表.mysql5.1开始支持数据表分区了.如:某用户表的记录超过了1000万条,那么就可以根据入库日期将表分区,也可以根据所在地将表分区.当然也可根据其他的条件分区. 二.为什么要对表进行分区为了改善大型表以及具有各种访问模式的表的可伸缩性,可管理性和提高数据库效率.分区的一些优点包括:      1).与单个磁盘或文件系统分区相比,可以存储更多的数据.      2).对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有关

Mysql数据库表分区深入详解

0.mysql数据库分区的由来? 1)传统不分区数据库痛点 mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可以通过my.cnf中的datadir来查看), 一张表主要对应着三个文件,一个是frm存放表结构的,一个是myd存放表数据的,一个是myi存表索引的. [[email protected] test]# ls -al 总用量 1811444 drwx------ 2 mysql mysql 4096 10月 17 15:12 . drwxr-xr-

MySQL的表分区详解

这篇文章主要介绍了MySQL的表分区,例如什么是表分区.为什么要对表进行分区.表分区的4种类型详解等,需要的朋友可以参考下 一.什么是表分区通俗地讲表分区是将一大表,根据条件分割成若干个小表.mysql5.1开始支持数据表分区了.如:某用户表的记录超过了600万条,那么就可以根据入库日期将表分区,也可以根据所在地将表分区.当然也可根据其他的条件分区. 二.为什么要对表进行分区为了改善大型表以及具有各种访问模式的表的可伸缩性,可管理性和提高数据库效率.分区的一些优点包括:      1).与单个磁

MySQL 数据库分表分区

博主QQ:819594300 博客地址:http://zpf666.blog.51cto.com/ 有什么疑问的朋友可以联系博主,博主会帮你们解答,谢谢支持!一.分表 为什么要分表? 我们的数据库数据越来越大,随之而来的是单个表中数据太多.以至于查询书读变慢,而且由于表的锁机制导致应用操作也搜到严重影响,出现了数据库性能瓶颈. 什么是分表? 分表是将一个达标按照一定的规则分解成多张具有独立存储空间的实体表,每个表都对应三个文件,.MYD数据文件..MYI索引文件..frm表结构文件.这些表可以分

POSTGRESQL表分区

最近发现POSTGRESQL的一张表(下面统称为test表)达到67G大小,不得不进行重新分区,下面记录一下步骤: 前言.查看数据表结构(表结构肯定是虚构的) CREATE TABLE test ( id integer NOT NULL DEFAULT , logday character varying, -- 登录日期 CONSTRAINT test PRIMARY KEY (id) ); 一.正式开始-在dw模式下面创建这个父亲表 CREATE TABLE dw.test ( id in

oracle表分区详解(按天、按月、按年等)

分区表的概念:  当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑对表进行分区.表进行分区后,逻辑上表仍然是一张完整的表,只是将表中的数据在物理上存放到多个表空间(物理文件上),这样查询数据时,不至于每次都扫描整张表. 分区表的优点: 1)   改善查询性能:对分区对象的查询可以仅搜索自己关心的分区,提高检索速度. 2)   增强可用性:如果表的某个分区出现故障,表在其他分区的数据仍然可用: 3)   维护方便:如果表的某个分区出现故障,需要修复数据,只修复

mysql数据库分表分区

防伪码:博观而约取,厚积而薄发 为什么要分表和分区? 我们的数据库数据越来越大,随之而来的是单个表中数据太多.以至于查询书读变慢,而且 由于表的锁机制导致应用操作也搜到严重影响,出现了数据库性能瓶颈. mysql 中有一种机制是表锁定和行锁定,是为了保证数据的完整性.表锁定表示你们都不能 对这张表进行操作,必须等我对表操作完才行.行锁定也一样,别的 sql 必须等我对这条数 据操作完了,才能对这条数据进行操作.当出现这种情况时,我们可以考虑分表或分区. 1.分表 什么是分表? 分表是将一个大表按