Hive架构层面优化之一分表

场景：某个日志表数据量很大，而且访问该表的作业比较多，造成耗时比较长；

解决方案：将用的比较少/不常用的字段剥离出去；

案例：

日志表trackinfo，每天约有2亿数据量，有5000个作业按天访问，每天的日志数据量有可能会继续添加下去，那么很可能就满足不了要求（每添加10%的数据量作业大概要添加20分钟）；如何解决数据的增长呢？

方案：

将邮件营销EDM，网盟Union从trackinfo表中剥离出来，trackinfo表大概能降到1.5亿左右，这样作业的执行时间大概可以减少40-50分钟时间，表edm_union_track只存放邮件营销EDM、网盟的数据Union，这个表的数据只有大概5个作业按天访问，抽取出来的好处之一是，这几种类型的数据统计时不再需要去整个大表中查询，提高性能，同时也降低了大表的数据量；不剥离出来的话，5000个作业每次都会到表中去过滤，而这0.5亿的数据对这些作业来说是没用的。

Hive架构层面优化之一分表

时间： 2024-10-12 22:51:10

Hive架构层面优化之一分表的相关文章

Hive架构层面优化之五合理设计表分区(静态分区和动态分区)

合理建表分区有效提高查询速度. 重要数据采用外部表存储,CREATE EXTERNAL TABLE,数据和表只是一个location的关联,drop表后数据不会丢失: 内部表也叫托管表,drop表后数据丢失:所以重要数据的表不能采用内部表的方式存储. 在全天的数据里查询某个时段的数据,性能很低效------可以通过增加小时级别的分区来改进! Trackreal为例,有三个分区: 日增量: 按日期分区: 小时增量:按日期.小时分区: 10分钟增量:按日期.小时.step分区:每个小时要导6次. 场

Hive架构层面优化之四常用复杂/低效的统计从源上给出，以避免上层作业过多计算

案例一:trackinfo,基础表处理常用的低性能UDF 背景描述:日志信息10分钟加载一次到实时日志表trackreal中(按小时分区),为了保证实时性,在加载的过程中并没有做任何的过滤处理,加载到trackreal表后再过滤非法数据.爬虫数据等,生成按天增量日志表trackinfo,然后根据不同的page_type来统计流量. 解决方案如下: select '首页', count(*) pv, #每条记录就是一条pv count(distinct session_id) uv #根据sess

Hive架构层面优化之二合理利用中间结果集（单Job）

是针对单个作业,针对本job再怎么优化也不会影响到其他job: Hadoop的负载主要有两部分:CPU负载和IO负载: 问题:机器io开销很大,但是机器的cpu开销较小,另外map输出文件也较大,怎么办? 解决办法:通过设置map的中间输出进行压缩就可以了,这个不会影响最终reduce的输出. 集群中的机器一旦选定了,那么CPU就没的改变了,所以集群的最主要的负载还是IO负载: 压缩技术虽然可以降低IO负载,但是同时也加重了CPU负载,治标不治本,CPU加重了,整体性能还是上不去:如果当前CPU

Hive架构层面优化之六分布式缓存

案例: Hadoop jar引用:hadoop jar -libjars aa.jar bb.jar …. jar包会被上传到hdfs,然后分发到每个datanode 假设有20个jar文件,每天jar文件被上传上万次,分发达上万次(百G级),造成很严重的IO开销. 如何使这些jar包在HDFS上进行缓存,同一个jar只需上传和分发一次,后续所有的job可以节省此jar的上传和分发的开销,从而减少不必要的上传和分发呢? 解决方案:使用分布式缓存 MapReduce如何使用分布式缓存 Hadoop

Hive架构层面优化之七压缩

常见的压缩有:对中间结果压缩.对输出结果压缩. 压缩对比: 算法压缩前/压缩后压缩速度解压速度 GZIP 13.4% 21MB/s 118 MB/s LZO 20.5% 135 MB/s 410 MB/s Snappy 22.2% 172 MB/s 409 MB/s Snappy介绍: Snappy 网站:http://code.google.com/p/snappy/ Snappy的前身是Zippy.虽然只是一个数据压缩库,它却被Google用于许多内部项目程,其中就包括BigTable

Hive语法层面优化之六数据倾斜常见案例

常见案例一:空值产生的数据倾斜日志表有一部分的user_id为空或者是0的情况,导致在用user_id进行hash分桶时,会将日志由user_id为0或者为空的数据分到一个reduce上,导致数据倾斜: 如:访户未登录时,日志中的user_id为空,用user_id和用户表的user_id进行关联的时候,会将日志中的user_id为空的数据分到一起,导致了过大的空key造成数据倾斜: 解决办法:随机函数解决数据倾斜把空值的key变成一个字符串加上随机数(只要不与真正的end_user_id的

Hive语法层面优化之七数据倾斜总结

关键字情形后果 join 其中一个表较小,但key集中分发到某一个或几个reduce上的数据远高于平均值大表与大表关联,但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理,非常慢 group by Group by维度过小,某值的数量过多处理某值的reduce非常耗时 count distinct 某特殊值过多处理此特殊值的reduce耗时 Hive语法层面优化之七数据倾斜总结

Hive参数层面优化之一控制Map数

1.Map个数的决定因素通常情况下,作业会通过input文件产生一个或者多个map数: Map数主要的决定因素有: input总的文件个数,input文件的大小和集群中设置的block的大小(在hive中可以通过set dfs.block.size命令查看,该参数不能自定义修改): 文件块数拆分原则:如果文件大于块大小(128M),那么拆分:如果小于,则把该文件当成一个块. 举例一: 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和

Hive语法层面优化之五分析执行计划追踪导致数据倾斜的原因

count(distinct key)案例 explain select count(distinct session_id) from trackinfo where ds=' 2013-07-21' ; STAGE DEPENDENCIES: Stage-1 is a root stage Stage-0 is a root stage STAGE PLANS: Stage: Stage-1 Map Reduce Alias -> Map Operator Tree: trackinfo T

猜你喜欢

Linux下如何获取命令帮助

一.linux系统命令的分类: linux系统的命令分为内部命令和外部命令:内部命令是linux的shell自带的命令,所谓外部命令是指命令本身都有一个可以执行的程序位于文件系统的某个目录下. 二 ...

RHEL7下PXE+NFS+Kickstart无人值守安装操作系统

1.配置yum源 vim /etc/yum.repos.d/development.repo [development] name=yum server baseurl=file:///mnt ena ...

结果就给大家的机会感觉到见到过

http://www.ebay.com/cln/olh_gamx/2015-01-20/160266597017/g.html http://www.ebay.com/cln/05r_yqre/201 ...

JavaScript中的6种运算符总结

JavaScript 运算符主要包括: 算术运算符赋值运算符比较运算符三元运算符逻辑运算符字符串连接运算符运算符说明例子运算结果 + 加 y = 2+1 y = 3 - 减 y = ...

MySql索引算法原理解析（通俗易懂，只讲B-tree）

刚开始学习的时候,百度去查,但发现好多说得太复杂不好理解,结合各个文章总结一下(建议大概看文字,不理解不要紧,然后再看图的执行步骤然后在结合文字,这样一切就清晰好多) B-tree,B是balance ...

迁移工具准备复习

1.对文件系统的要求必须是ntfs以及ext2,ext3,ext4以及reserfs等. 2.操作系统要求不能是oem和多操作系统多操作系统主要是MBR的问题,我们工具是新建MBR,无法复制原有 ...

1,问题:AndroidStudio 老是不停的在更新Sdk?解决的方法? 这是在检查你的 Android SDK .有人会在这里卡上很长时间,很大的原因就是:网络连接有问题.可以通过配置hosts ...

没有什么不可能—记山东省第六届ACM程序设计竞赛（退役总结帖）

大一下学期,第一次听说了ACM这个词,当时每周六也开设了培训课,但我好像一次也没有去过,当时对这个词并没有什么太大的印象.后来学院里引进了自己的OJ,那时候我连基本的输入输出格式都不懂,当经历了一堆的 ...

实验四+052+张博勋

一.实验目的 1) 学习QTP工具的使用 2)了解黑盒自动化测试二.实验要求 (1)对被测程序进行黑盒测试用例设计 (2)对QTP的飞机订票系统的任一界面或控件实现自动化测试.(测试的具体自选) ( ...

大数据分享

<IT十八掌大数据内功修炼到企业实战2.0课程>免费自学马拉松计划 1.关于十八掌学了大数据,还是不敢找工作? 内功不够!跟随十八掌掌门徐培成炼内功! 十八掌教育努力打造一套地表最 ...

LINUX-软件安装（二）

RPM包中文件提取 1)cpio命令 cpio命令主要有三种基本模式:"-o"模式指的是copy-out模式,就是把数据备份到文件库中;"-i"模式指的是cop ...

HTML5 canvas流体力学效果

某人用Java搞了一个流体力学的演示:http://grantkot.com/MPM/Liquid.html. 下面是 HTML 5版的流体力学演示(推荐使用Chrome浏览器浏览): 效果演示 &l ...

带负权图的单源最短路径算法：Bellman-Ford算法

算法简介前面介绍过图的单源最短路径算法Dijkstra算法,然而Dijkstra算法无法判断含负权边的图的最短路.如果遇到负权,在没有负权回路存在时(负权回路的含义是,回路的权值和为负.)即便有负权 ...

蓝懿iOS培训日志15 tableView和自定义Cell（1）

今天学了很多新内容需要时间消化,笔记如下: tableView的分组通过判断section＝＝?来实现不同section有不同行数需要去掉行与行之间的线时把separator改一下defau ...

Linux中bash中的几种基础特性汇总！

首先需要知道什么是shell?如果将Linux内核当作一个地球的核心,那么shell就是地壳.shell本身也是一个应用程序,为我们提供了使用系统的接口.shell程序有很多种,目前主流发行版大多数默 ...

js 限制只能输入数字小数点

function checkNum(e) { var re = /^\d+(?=\.{0,1}\d+$|$)/ if (e.value != "") { if (!re.test( ...

php大力力 [038节] 全栈工程师的含义

管理时间 http://www.nowamagic.net/librarys/eight/posts/2753 从知乎上看到“全栈开发者”讨论之后的自黑什么是全栈开发者 https://beeclo ...

对XX证券报关于物联网操作系统的几个问题的答复

XX证券报提问了几个关于物联网和物联网操作系统的问题,个人表达了一些粗陋的观点,在这里发表出来,与行业朋友交流和探讨. 物联网行业最需要解决的问题是什么? 虽然物联网这个行业被炒得比较热,但是截至目前 ...

java.net.SocketException: Software caused connection abort: socket write error

我使用的框架是Struts2+Hibernate3+Spring,项目的后台数据库是Mysql,最近挪到正式服务器上了,处于一直打开服务的状态,就出现了java.net.SocketException ...

W3School Memcached教程（安装/基本操作/高级操作）

来自W3School的Memcached教程,基本上涵盖了从安装到状态监控的教程. 不过最全的应该是官方提供在GitHub上的Wiki教程,一切的标准都来自官方,参考:https://github.c ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.037 s.