润乾集算报表提升性能之并行多库

应用的数据量较大时报表性能往往不高,此时针对源数据量大的报表进行SQL或报表端的优化效果往往不明显。如果将数据采用一定规则(如时间)分库分段存储,报表访问时同时访问多个数据库进行数据计算,最后在报表中进行汇总展现,采用这种并行多库的方式来提升报表性能。

一般报表工具并不具备这种并行取数汇总的能力,访问多个数据库读取分段数据需要借助Java等高级语言完成,然而使用Java编写这样的并行程序并不简单,而且由于Java缺乏对批量数据计算的基础支持,不支持表达式参数和动态数据结构,使得一般报表工具难以直接使用并行多库的方式提升报表性能。

润乾集算报表中内置了专门用于数据计算的集算引擎,其提供的并行计算的功能允许用户从多个数据库中同时读取数据并在报表端进行汇总展现,从而提升报表性能。

具体实现上可以参考集算报表的相关文档资料,这里通过一个例子简单说明并行多库的使用方法(以mysql为例)。

某电信企业将用户服务使用信息按照统计地区分库存储(4个mysql数据库),服务使用信息统计报表需要根据指定时间段、品牌等条件过滤查询后,汇总数据。使用集算报表进行并行分库查询的步骤如下:

    1、使用集算报表内置的集算器编写并行脚本,实现从多个数据库取数后汇总结果。

    并行脚本:

上述脚本启动了4个线程同时从4个数据库取数计算,最后将结果归并汇总。具体含义如下:

A1:指定了4个数据源名称,每个并行线程连接不同的数据库;

A2:使用多线程执行本网格中的代码块,这里启动了4个子线程;

B3:在每个线程中分别连接各自的数据源;

B4:向指定数据源发出SQL执行进行数据库内的汇总并取回结果。这时4个数据库会同时分别执行各自的SQL语句;

B5:关闭数据库连接;

B6:返回子线程运行结果,子线程结束;

A7:合并子线程返回的结果;

A8:再次汇总合并后的结果;

A9:为报表返回结果集。

完成并行多库运算有两个关键点。一是能够让多个数据库并行工作(第2-6行完成),需要报表引擎提供简易的并行程序编写机制。二是要能将并行计算的结果再次汇总(第7,8行完成),因为各分库的结果可能有重复数据还需要再次汇总,这需要报表引擎有较强的批量数据再计算能力。

    2、在集算报表中调用上述集算脚本,编辑报表表达式完成报表制作。

并行多库适用于源数据量较大,而取出数据量不大,将数据分库存储后进行报表统计的情况,上述例子展示的是每个数据库建立一个连接取数,采用并行程序还可以建立多个连接同时查询,通过这种方式来提高报表查询的效率,提升报表性能。

时间: 2024-11-09 03:51:15

润乾集算报表提升性能之并行多库的相关文章

润乾集算报表提升性能之并行取数

有时报表在展现或导出时需要从数据库中取出较多数据,而JDBC的取数速度一向比较慢,有可能超过报表其它运算环节的耗时,导致整个报表的生成过程效率极低.下面我们看如何利用润乾集算报表的并行计算机制提高JDBC的取数性能. 所谓并行取数是指,使用多线程技术在报表工具与数据库建立多个连接,同时读取一份源数据,这需要将源数据分段,每个线程(数据库连接)读取其中一段内容,最后将所有线程的结果合并得到总目标数据的过程. 集算报表内置了并行机制可以很容易完成并行取数任务,从而提升报表性能,这里以oracle为例

润乾集算报表提升性能之过程优化

报表出现性能问题需要对数据源计算进行优化时,执行路径难以确定从而被干预是阻碍报表优化的难题之一.由于数据库执行路径对开发人员不透明,报表优化需要指定执行路径时,程序员会很难甚至无法干预.而一般报表工具不具备强计算能力,大部分计算仍然要依靠数据库进行,这就导致很多报表优化效果不理想. 不同于一般报表工具,润乾集算报表内置了专门用于数据计算的集算引擎,开发人员可以通过编写集算脚本完成报表数据源准备.与数据库执行SQL路径不可控相比,集算脚本的执行过程是可控的,开发人员可根据实际情况编写或更改计算执行

用润乾集算报表提升性能之关联计算

报表开发过程中经常要在报表中完成数据关联计算,有的为了降低报表制作复杂度将关联关系放到可视的报表模板中完成:有的则必须在报表中完成关联,如多数据源.异构数据源的情况.而在报表中做关联往往导致报表效率不高,计算过慢,引发性能问题.润乾集算报表提供了特殊的数据关联方式,可以提升报表性能.这里通过一个常见的多源关联分片报表实例来看一下集算报表的实现过程:     报表说明 根据销售情况等信息表按照时间.地区.销售人员.产品等维度汇总销售额,报表样式如下: 以下为实现过程.     编写计算脚本 首先使

润乾集算报表提升性能之层次数据集

多层次报表是很常见的报表形式,如分组报表和主子报表.其中的关联运算(组与明细,主表和子表),由于有层次而不能直接在数据库中完成,需要在报表端完成.但报表端一般只用采用排序和遍历的方法实现关联,性能较差.利用润乾集算报表的层次数据集则可以在数据源计算过程中就完成关联计算,并且有层次的结果集直接传送给报表呈现,在关联计算中充分利用集算器的高效算法,从而达到优化性能的目标. 下面通过一个主子报表的实例看一下使用过程与效果. 报表描述 使用订单表和订单明细表,查询每个订单详情以及该订单下的订单明细,报表

润乾集算报表提升性能之预先计算

报表应用中当数据量较大或计算过程较复杂时,会导致报表数据源准备过慢,从而影响报表性能.这时常常需要事先将报表需要的数据计算好,在呈现时直接引用即可,这样用户在访问报表时就可以迅速地获得响应. 当前的手段及弊端 由于报表在访问时还需要参数,显然不可能把所有参数组合对应的报表数据源都准备好,所以预先计算并不是最终的报表结果,在呈现的时刻仍然要再次进行一些简单的计算(如过滤.分组汇总.排序等),然而也不太可能指望报表呈现时刻由报表工具再完成所有这些运算(报表工具只能完成一部分小数据量的运算),这样就要

润乾集算报表提升性能之可控缓存

使用缓存可以提升报表性能是不争的事实,一般高端报表工具都会提供报表缓存的功能,用于将整个报表计算结果缓存到文件系统中,以便用户在下次访问同参数报表时可以快速读取缓存结果进行报表展现,集算报表也具有这种常规缓存功能.但是,有些情况下报表开发人员希望能够控制缓存的内容,比如有时希望缓存的不是整个报表结果而是其中的部分,有时缓存内容可被其它报表或程序复用,有时希望对不同的缓存结果设置不同的超时时间,以应对数据量和实时性方面的不同情况.这时,一般的报表缓存就无法满足需求了. 集算报表内置了可编程的数据计

润乾集算报表利用并行计算提高JDBC取数性能示例

实际应用中数据量较大的报表在展现或导出时往往需要一次性将数据从数据库中取出来,而JDBC的取数速度过慢使得整个进程效率极低.如何优化取数速度成为了提升报表性能的关键.在润乾集算报表中可以通过并行计算提高JDBC的取数性能.本文以oracle为例说明实现过程. 报表描述 用户状态表展现的是明细数据,由于需要导出,需要一次性读取数据表中所有数据.单表数据量为360万,报表样式为: 实现步骤 编写脚本 首先使用集算器编写脚本(parallel.dfx),实现并行取数逻辑: A1:连接oracle数据源

润乾集算报表的集算器数据集部署(I)

润乾集算报表提供了集算器数据集,允许用户使用集算器脚本完成数据的进一步计算和加工,为报表提供数据源支持,从而简化报表开发,提升报表性能. 集算器脚本的编辑需要借助第三方集算编辑器(非报表工具)完成,而后嵌入到报表工具和报表应用中完成报表开发和部署. 下面来看一下集算器数据集的使用和以及报表部署过程. 1.开发环境使用 集算报表使用集算器数据集时,首先需要设置集算器授权信息和配置数据源连接(如果需要从数据库中取数). 1.1.设置授权信息 启动集算报表设计器,选择工具-选项,切换到"集算器选项&q

润乾集算报表优化应用结构之本地计算

在报表项目中,常常会碰到数据库压力很大影响整个系统性能的问题.由下面的传统方案的结构示意图可以看出,全部数据存储和源数据计算都放在数据库完成.当并发访问量较大的时候,虽然每个报表的数据量不大,还是会造成数据库压力过大,成为性能的瓶颈.多数数据库厂商提供的jdbc接口传输数据比较缓慢,在并发量较大的情况,对报表系统性能的影响也非常明显. 这种情况时可以考虑采用润乾集算报表提供的本地计算方案. 所谓本地计算,是将一部分计算任务从数据库中移出到报表服务器中完成.大多数有一定规模的应用系统中,数据库和应