润乾集算报表提升性能之层次数据集

多层次报表是很常见的报表形式,如分组报表和主子报表。其中的关联运算(组与明细,主表和子表),由于有层次而不能直接在数据库中完成,需要在报表端完成。但报表端一般只用采用排序和遍历的方法实现关联,性能较差。利用润乾集算报表的层次数据集则可以在数据源计算过程中就完成关联计算,并且有层次的结果集直接传送给报表呈现,在关联计算中充分利用集算器的高效算法,从而达到优化性能的目标。

下面通过一个主子报表的实例看一下使用过程与效果。

报表描述

使用订单表和订单明细表,查询每个订单详情以及该订单下的订单明细,报表格式如下:

环境及数据描述

         测试机型:Dell Inspiron 3420

         CPU:Intel Core i5-3210M @2.50GHz *4

         RAM:4G

         HDD:西数WDC(500G 5400转/分)

         操作系统:Win7(X64) SP1

         JDK:1.6

         数据库:hsqldb

         集算报表版本:5.0

表数据

实现步骤

编写计算脚本

首先使用集算报表内置的集算器(专门用于数据计算,为报表提供数据源支持的工具)编写计算脚本(orders.dfx),完成数据计算并返回层次数据集:

A1:连接数据源;

A2-A3:分别查询订单和订单明细表数据;

A4:根据订单编号关联订单和订单明细表;

A5:为报表返回订单编号不为空的结果集。

编制报表

新建报表模板后,数据集选择“集算器”,在数据集编辑窗口指定上述编辑好的dfx文件,完成数据集创建。

         报表中层次数据集效果

设置报表模板表达式:

不同于在报表中关联,使用层次数据集可通过集算脚本返回的一个结果集完成主子报表的制作,从而获得了更高的性能,下面是在报表中直接关联实现方式:

不使用层次数据集实现

         数据集

ds1: select 订单ID,订单ID 订单编号,发货日期,到货日期,客户ID,货主名称,运货商,运货费,货主城市 from 订单;

ds2: select * from 订单明细;

报表模板

实现效果

这里比较使用层次数据集前(报表中关联)后的时间开销,下表运行结果数据单位为:秒

可以看到使用层次数据集带来的效果,由于常规的主子表需要在报表完成关联时只能使用遍历算法(只能针对单条主记录去寻找关联的子记录),因此效率不高。而集算器采用了更高效的hash关联方案(可事先将所有子记录按对应码hash到主记录上,代码中的switch函数即使用了hash关联技术,单算关联时间能快出5-10倍),使得主子表的数据源准备(数据计算)效率大大提升。因而,层次方案可以获得更高的整体运算性能。

时间: 2024-08-09 14:44:18

润乾集算报表提升性能之层次数据集的相关文章

润乾集算报表提升性能之过程优化

报表出现性能问题需要对数据源计算进行优化时,执行路径难以确定从而被干预是阻碍报表优化的难题之一.由于数据库执行路径对开发人员不透明,报表优化需要指定执行路径时,程序员会很难甚至无法干预.而一般报表工具不具备强计算能力,大部分计算仍然要依靠数据库进行,这就导致很多报表优化效果不理想. 不同于一般报表工具,润乾集算报表内置了专门用于数据计算的集算引擎,开发人员可以通过编写集算脚本完成报表数据源准备.与数据库执行SQL路径不可控相比,集算脚本的执行过程是可控的,开发人员可根据实际情况编写或更改计算执行

润乾集算报表提升性能之并行取数

有时报表在展现或导出时需要从数据库中取出较多数据,而JDBC的取数速度一向比较慢,有可能超过报表其它运算环节的耗时,导致整个报表的生成过程效率极低.下面我们看如何利用润乾集算报表的并行计算机制提高JDBC的取数性能. 所谓并行取数是指,使用多线程技术在报表工具与数据库建立多个连接,同时读取一份源数据,这需要将源数据分段,每个线程(数据库连接)读取其中一段内容,最后将所有线程的结果合并得到总目标数据的过程. 集算报表内置了并行机制可以很容易完成并行取数任务,从而提升报表性能,这里以oracle为例

用润乾集算报表提升性能之关联计算

报表开发过程中经常要在报表中完成数据关联计算,有的为了降低报表制作复杂度将关联关系放到可视的报表模板中完成:有的则必须在报表中完成关联,如多数据源.异构数据源的情况.而在报表中做关联往往导致报表效率不高,计算过慢,引发性能问题.润乾集算报表提供了特殊的数据关联方式,可以提升报表性能.这里通过一个常见的多源关联分片报表实例来看一下集算报表的实现过程:     报表说明 根据销售情况等信息表按照时间.地区.销售人员.产品等维度汇总销售额,报表样式如下: 以下为实现过程.     编写计算脚本 首先使

润乾集算报表提升性能之并行多库

应用的数据量较大时报表性能往往不高,此时针对源数据量大的报表进行SQL或报表端的优化效果往往不明显.如果将数据采用一定规则(如时间)分库分段存储,报表访问时同时访问多个数据库进行数据计算,最后在报表中进行汇总展现,采用这种并行多库的方式来提升报表性能. 一般报表工具并不具备这种并行取数汇总的能力,访问多个数据库读取分段数据需要借助Java等高级语言完成,然而使用Java编写这样的并行程序并不简单,而且由于Java缺乏对批量数据计算的基础支持,不支持表达式参数和动态数据结构,使得一般报表工具难以直

润乾集算报表提升性能之预先计算

报表应用中当数据量较大或计算过程较复杂时,会导致报表数据源准备过慢,从而影响报表性能.这时常常需要事先将报表需要的数据计算好,在呈现时直接引用即可,这样用户在访问报表时就可以迅速地获得响应. 当前的手段及弊端 由于报表在访问时还需要参数,显然不可能把所有参数组合对应的报表数据源都准备好,所以预先计算并不是最终的报表结果,在呈现的时刻仍然要再次进行一些简单的计算(如过滤.分组汇总.排序等),然而也不太可能指望报表呈现时刻由报表工具再完成所有这些运算(报表工具只能完成一部分小数据量的运算),这样就要

润乾集算报表提升性能之可控缓存

使用缓存可以提升报表性能是不争的事实,一般高端报表工具都会提供报表缓存的功能,用于将整个报表计算结果缓存到文件系统中,以便用户在下次访问同参数报表时可以快速读取缓存结果进行报表展现,集算报表也具有这种常规缓存功能.但是,有些情况下报表开发人员希望能够控制缓存的内容,比如有时希望缓存的不是整个报表结果而是其中的部分,有时缓存内容可被其它报表或程序复用,有时希望对不同的缓存结果设置不同的超时时间,以应对数据量和实时性方面的不同情况.这时,一般的报表缓存就无法满足需求了. 集算报表内置了可编程的数据计

润乾集算报表利用并行计算提高JDBC取数性能示例

实际应用中数据量较大的报表在展现或导出时往往需要一次性将数据从数据库中取出来,而JDBC的取数速度过慢使得整个进程效率极低.如何优化取数速度成为了提升报表性能的关键.在润乾集算报表中可以通过并行计算提高JDBC的取数性能.本文以oracle为例说明实现过程. 报表描述 用户状态表展现的是明细数据,由于需要导出,需要一次性读取数据表中所有数据.单表数据量为360万,报表样式为: 实现步骤 编写脚本 首先使用集算器编写脚本(parallel.dfx),实现并行取数逻辑: A1:连接oracle数据源

润乾集算报表的集算器数据集部署(I)

润乾集算报表提供了集算器数据集,允许用户使用集算器脚本完成数据的进一步计算和加工,为报表提供数据源支持,从而简化报表开发,提升报表性能. 集算器脚本的编辑需要借助第三方集算编辑器(非报表工具)完成,而后嵌入到报表工具和报表应用中完成报表开发和部署. 下面来看一下集算器数据集的使用和以及报表部署过程. 1.开发环境使用 集算报表使用集算器数据集时,首先需要设置集算器授权信息和配置数据源连接(如果需要从数据库中取数). 1.1.设置授权信息 启动集算报表设计器,选择工具-选项,切换到"集算器选项&q

润乾集算报表优化应用结构之本地计算

在报表项目中,常常会碰到数据库压力很大影响整个系统性能的问题.由下面的传统方案的结构示意图可以看出,全部数据存储和源数据计算都放在数据库完成.当并发访问量较大的时候,虽然每个报表的数据量不大,还是会造成数据库压力过大,成为性能的瓶颈.多数数据库厂商提供的jdbc接口传输数据比较缓慢,在并发量较大的情况,对报表系统性能的影响也非常明显. 这种情况时可以考虑采用润乾集算报表提供的本地计算方案. 所谓本地计算,是将一部分计算任务从数据库中移出到报表服务器中完成.大多数有一定规模的应用系统中,数据库和应