如何解决报表关联计算中的性能问题

报表开发过程中经常要在报表中完成数据关联计算,有时为了降低报表制作复杂度,会将关联关系放到可视的报表模板中完成;而有时则必须在报表中完成关联,如多数据源、异构数据源的情况。在报表中做关联往往导致报表效率不高,计算过慢,从而引发性能问题。为此,润乾报表提供了高性能数据关联方式(需要结合集算器实现),可以显著提升报表的计算效率。这里就通过一个常见的多源关联分片报表实例来说明润乾报表的实现过程:

报表说明

根据销售情况等信息按照时间、地区、销售人员、产品等维度汇总销售额,报表样式如下:

以下为实现过程。

编写计算脚本

首先使用集算器编写脚本,完成数据关联,并为报表返回关联后的结果集。

A1:连接数据源;

A2-A5:执行 sql,分别取订单、产品等库表数据;

A6-A8:使用 switch 将多表数据完成关联,关联结果存入 A2 格中;

A9:根据已关联结果创建新序表,结果集通过 A10 返回报表。

编制报表

在润乾报表设计器中新建报表模板后,数据集选择“集算器”,在数据集编辑窗口指定上述编辑好的 dfx 文件,完成数据集创建。

编辑报表模板表达式:

不同于报表模板中的低效关联,集算报表是事先在集算脚本中完成关联,报表模板只需从结果集取数,从而获得更高的性能。

为了对照,我们再按照传统的报表中实现关联的方式做一下:

报表中实现关联

数据集

ds1: SELECT 客户. 地区, 客户. 城市, 订单明细. 数量, 订单明细. 折扣, 订单明细. 单价, 订单. 雇员 ID, 订单. 订购日期, 订单明细. 产品 ID FROM 订单明细, 订单, 客户 WHERE 客户. 客户 ID = 订单. 客户 ID  AND  订单. 订单 ID = 订单明细. 订单 ID and 订单. 订购日期 is not null

ds2: SELECT 类别. 类别 ID, 类别. 类别名称 FROM 类别

ds3: SELECT * from 雇员

ds4: SELECT 产品. 类别 ID, 产品. 产品 ID FROM 产品

报表模板

对比效果

本例的源表数据为 40 多万条,基于同样的取数 sql,两种关联方式的运行时间如下表所示:

可以看到,润乾报表在处理关联计算类报表时有明显的优势。这是因为在报表中实现关联只能使用遍历算法,针对单条主记录去寻找关联的子记录,因此效率不高;而集算器采用了更高效的 hash 关联方案,事先将所有子记录按对应码 hash 到主记录上(代码中的 switch 函数就利用了 hash 关联技术),因而能获得一倍以上的性能提升(如果只算关联能快出 5-10 倍)。

此外,集算器也非常适合处理异构数据源的数据关联,如常见的跨库计算、文件和数据库混合计算等情况。

下附运行日志和测试机配置。

【附 1】运行日志

报表中关联

[2018-09-15 11:32:59] : [INFO]  - 开始运算报表,首先取数……

[2018-09-15 11:32:59] : [DEBUG]  - 下面开始打出 sql

[2018-09-15 11:32:59] : [DEBUG]  - ds1=SELECT 客户. 地区, 客户. 城市, 订单明细. 数量, 订单明细. 折扣, 订单明细. 单价, 订单. 雇员 ID, 订单. 订购日期, 订单明细. 产品 ID FROM 订单明细, 订单, 客户 WHERE 客户. 客户 ID = 订单. 客户 ID  AND  订单. 订单 ID = 订单明细. 订单 ID and 订单. 订购日期 is not null

[2018-09-15 11:33:35] : [DEBUG]  - 下面开始打出 sql

[2018-09-15 11:33:35] : [DEBUG]  - ds2=SELECT 类别. 类别 ID, 类别. 类别名称 FROM 类别

[2018-09-15 11:33:35] : [DEBUG]  - 下面开始打出 sql

[2018-09-15 11:33:35] : [DEBUG]  - ds3=SELECT * from 雇员

[2018-09-15 11:33:35] : [DEBUG]  - 下面开始打出 sql

[2018-09-15 11:33:35] : [DEBUG]  - ds4=SELECT 产品. 类别 ID, 产品. 产品 ID FROM 产品

[2018-09-15 11:33:35] : [INFO]  - 取数结束, 开始运算

[2018-09-15 11:34:58] : [INFO]  - 计算结束:

dfx 中关联

[2018-09-15 11:56:33] : [INFO]  - 开始运算报表,首先取数……

[2018-09-15 11:57:11] : [INFO]  - 取数结束, 开始运算

[2018-09-15 11:57:26] : [INFO]  - 计算结束:

【附 2】测试机配置

测试机型:Dell Inspiron 3420

CPU:Intel Core i5-3210M @2.50GHz *4

RAM:4G

HDD:西数 WDC(500G 5400 转 / 分)

操作系统:Win7(X64) SP1

JDK:1.6

数据库:oracle11g R2

润乾报表版本:2018

原文地址:https://www.cnblogs.com/shiGuangShiYi/p/12112923.html

时间: 2024-10-29 07:52:23

如何解决报表关联计算中的性能问题的相关文章

如何解决大数据计算中常见的数据倾斜问题?

数据倾斜是在大数据计算中常见的问题,用最通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了'一个人累死,其他人闲死'的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这个忙碌的节点,也拖累了整体的计算时间,可以说效率是十分低下的.以下针对spark具体计算场景,给出数据倾斜解决方案:场 景当RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用gr

用润乾集算报表提升性能之关联计算

报表开发过程中经常要在报表中完成数据关联计算,有的为了降低报表制作复杂度将关联关系放到可视的报表模板中完成:有的则必须在报表中完成关联,如多数据源.异构数据源的情况.而在报表中做关联往往导致报表效率不高,计算过慢,引发性能问题.润乾集算报表提供了特殊的数据关联方式,可以提升报表性能.这里通过一个常见的多源关联分片报表实例来看一下集算报表的实现过程:     报表说明 根据销售情况等信息表按照时间.地区.销售人员.产品等维度汇总销售额,报表样式如下: 以下为实现过程.     编写计算脚本 首先使

SylixOS中CPU性能计算

1.概述 本篇主要介绍SylixOS中CPU性能计算方法. 2.简介 BogoMips是SylixOS中衡量CPU运行速度的一种标准,但只能用来粗略计算CPU的性能,并不十分精确. SylixOS中关于CPU性能计算的方法位于内核文件"libsylixos/SylixOS/kernel/interface/CpuPerf.c"中. 3.接口及具体实现 SylixOS内核中定义了用于计算CPU运算速度的相关接口. 3.1 接口介绍 #include <SylixOS.h> U

优化报表系统结构之报表服务器计算

在报表项目中,常常会碰到数据库压力很大影响整个系统性能的问题.由下面的传统方案的结构示意图可以看出,全部数据存储和源数据计算都放在数据库完成.当并发访问量较大的时候,虽然每个报表的数据量不大,还是会造成数据库压力过大,成为性能的瓶颈.多数数据库厂商提供的jdbc接口传输数据比较缓慢,在并发量较大的情况,对报表系统性能的影响也非常明显. 这种情况时可以考虑采用润乾集算报表提供的本地计算方案. 所谓本地计算,是将一部分计算任务从数据库中移出到报表服务器中完成.大多数有一定规模的应用系统中,数据库和应

Docker Swarm和Kubernetes在大规模集群中的性能比较

Contents 这篇文章主要针对Docker Swarm和Kubernetes在大规模部署的条件下的3个问题展开讨论.在大规模部署下,它们的性能如何?它们是否可以被批量操作?需要采取何种措施来支持他们的大规模部署和运维? 我们需要使用侧重于用例的基准测试来对所有容器平台进行比较,这样采用者才可以做出正确的决策. 笔者从用户的角度建立了一套测评工具,用普通的方法测试Docker Swarm和Kubernetes.我只评估了通用的功能:容器的启动时间和容器罗列时间. Swarm的性能比Kubern

android app 开发过程中 对于性能优化的总结

一款手机应用  从开发过程中就要做好 性能优化,这样才能 让用户体验度 提升, 假如 我们打开一个应用 出现卡顿, 不流畅,则会很影响 用户对该应用的态度,产品狗 都很注意这些人机交互方面的 体验. 谷歌官方也是一直在优化 android 系统,不论是  碎片化处理 还是 系能 上面,这方面 ios 就做的比较好,配置比 android 低,但是流畅度却比android高,体验效果更好. 官方推荐方案:http://www.oschina.net/news/60157/android-perfo

java编程中的性能提升问题

java编程中的性能提升 软件产品犹如一栋大楼,大楼在建设初期,会有楼房规划,建筑构想,打牢地基,后面才是施工人员进行进行实质性的建设.要保证软件产品的高质量,优秀的架构,优秀的产品设计,是产生高质量的前提.同时,没有过硬的编码实现,一样得不到预期的效果.纵观现在的产品,产品架构没多大差别,基本运用基线版本进行局点定制.而系统中的一些功能性能常常不过关,问题往往就出在编码实现上.这块是开发人员在开发过程中需要注意的.在JAVA程序中,性能问题的大部分原因并不在于JAVA语言,而是程序本身.养成良

简化多层分组关联计算的sql

在数据库应用开发中,我们经常需要面对复杂的SQL式计算,比如多层分组中的关联计算.由于SQL分组时必须同时汇总,并且不能进行对象式关联访问,因此处理这类问题会比较复杂,只能用窗口函数嵌套多层的子查询的高级技巧来实现.集算器支持真正的分组,直观的对象式关联访问,解决这类问题更加容易. 分组关联在实际业务中遇到的较多,比如http://forums.bit-tech.net/showthread.php?t=207052.下面以链接中的实际业务为蓝本设计一个更通用的例子,用来说明集算器实现分组关联的

x86服务器中网络性能分析与调优 转

x86服务器中网络性能分析与调优 2017-04-05 巨枫 英特尔精英汇 [OpenStack 易经]是 EasyStack 官微在2017年新推出的技术品牌,将原创技术干货分享给您,本期我们讨论 [x86服务器中网络性能分析与调优] 那些事! >> 网络性能理论极限 网络数据包处理的性能指标,一般包括吞吐.延时.丢包率.抖动等. 数据包有大有小,数据包的大小对这些性能指标有很大的影响. 一般认为服务器处理能力很强,不是数据包处理的瓶颈,而通过物理线路能够传送数据包的最大速率,即线速(Wir