报表数据源之Hadoop

集算报表支持的数据源类型除传统的关系型数据库外,还支持:TXT文本、Excel、JSON、HTTP、Hadoop、mongodb等。

对于Hadoop,集算报表既可以直接访问Hive,也可以读取HDFS中的数据,完成数据计算和报表开发。Hive的访问和普通数据库一样使用JDBC就可以,这里不再赘述了。下面通过一个例子来看直接访问HDFS的过程。

报表说明

股票交易记录按月以文本形式存储在HDFS中,文件名为stock_record_yyyyMM.txt(如stock_record_200901.txt),内容包括股票代码、交易日期和收盘价。根据指定月份查询并计算各只股票的收盘均价,以便进行股价趋势分析。文本内容如下:

code                   tradingDate     price

120089     2009-01-0100:00:00        50.24

120123     2009-01-0100:00:00        10.35

120136     2009-01-0100:00:00        43.37

120141     2009-01-0100:00:00        41.86

120170     2009-01-0100:00:00        194.63

区别于一般报表工具,集算报表可以直接访问HDFS完成数据的读取计算,以下为实现过程。

拷贝相关jar包

使用集算报表访问HDFS时需要加载Hadoop核心包及配置包,如:commons-configuration-1.6.jar、commons-lang-2.4.jar、hadoop-core-1.0.4.jar(Hadoop1.0.4)。将以上jar拷贝到[集算报表安装目录]\report\lib和[集算器安装目录]\esproc(如果需要使用集算器编辑器编辑和调试脚本的话)下。

编写计算脚本

使用集算编辑器编写脚本(stockFromHdfsTxt.dfx),完成HDFS的文件读入和数据过滤,为报表返回结果集。由于要接收报表传递的参数,首先设置脚本脚本参数。

编辑脚本。

A1:使用hdfsfile函数根据文件路径和指定参数创建HDFS文件游标;

A2:针对股票代码汇总收盘价和数量;

A3:计算每只股票的平均收盘价,通过A4为报表返回结果集。

编辑报表模板

使用集算报表设计器新建报表模板,并设置参数:

设置数据集,使用“集算器”数据集类型,调用编辑好的脚本文件(stockFromHdfsTxt.dfx)。

其中,dfx文件路径既可以是绝对路径,也可以是相对路径,相对路径是相对选项中配置的dfx主目录的。

编辑报表表达式,直接使用集算脚本返回的结果集,完成报表制作。

值得注意的是,在报表设计器中预览时,需要将Hadoop相关jar包拷贝到[集算报表安装目录]\report\lib下。

除了可以直接访问HDFS的文本文件外,集算报表也可以读取HDFS中的压缩文件。这时仍然使用hdfsfile函数,由扩展名决定解压方式。比如,要访问Gzip文件可以这样写:

=hdfsfile("hdfs://192.168.1.210:9000/usr/local/hadoop/data/stock_record_"+d_date+".gz","GBK"),只需在将扩展名包含在url中即可。

通过上面的实现可以看到,使用集算器脚本可以很方便地完成HDFS文件的读取计算,而且外置的集算脚本具有可视化的编辑调试环境,编辑好的脚本还可以复用(被其他报表或程序调用)。不过,如果脚本已经调试好,而且不需要复用的时候,要维护两个文件(集算脚本和报表模板)的一致性会比较麻烦,这时候直接使用集算报表的脚本数据集就比较简单了。

在脚本数据集中可以分步编写脚本完成计算任务,语法与集算器一致,还可以直接使用报表定义好的数据源(本例并未涉及)和参数。使用脚本数据集可以这样完成:

1.  在数据集设置窗口中点击“增加”按钮,弹出数据集类型对话框,选择“脚本数据集”;

2.      在弹出的脚本数据集编辑窗口中编写脚本;

直接使用报表定义的参数arg1。

3.报表参数设置和报表表达式,与使用集算器数据集一致,不再赘述。

报表部署时,同样需要将Hadoop的相关jar放到应用classpath下,如应用的web-inf\lib下。

集算报表下载:http://www.raqsoft.com.cn/?p=208

时间: 2024-10-04 09:43:23

报表数据源之Hadoop的相关文章

报表数据源之多结果集

多样性数据源在报表开发中越来越常见,润乾集算报表对多样性数据源的有效支持使得这类报表开发变得非常简单,目前集算报表除了支持不同类型的数据源(RDB.TXT文本.Excel.JSON.HTTP.Hadoop.mongodb)外,还支持在一个数据集中为报表返回多个结果集使用,这样可以有效避免重复运算,提升报表开发效率和运算性能.下面通过一个实例说明多结果集的使用过程. 报表说明 根据学生成绩表查询总成绩前三名和后三名的学生姓名以及总成绩.报表样式如下: 由于要分别显示前三名和后三名学生姓名和成绩,报

集算器替代存储过程实现报表数据源

存储过程是SQL语句和流程控制语句的集合,常用来把一个复杂的计算目标分解为多个简单的计算步骤.虽然以复杂性换来了灵活性,但SQL语句固有的缺点仍然体现在存储过程中,比如:分步不彻底.数据无序.缺乏集合.缺乏引用,之前我们也分析过存储过程作为报表数据源的利弊,可点击这里查看. 集算器解决了存储过程的上述缺陷,降低了对开发人员的技术要求,是存储过程理想的替代工具. 报表例子说明 某电信产品厂商有一张报表,主要目的是分析优势产品的销售额.销量.环比等指标,其中优势产品的定义是"在每个州的销量均在前10

存储过程实现报表数据源的利弊分析

在报表项目中,当数据计算较为复杂的时候,报表开发者可能会考虑是否用存储过程来实现报表数据源准备. 这里,我们从几个不同的方面来看一下.用存储过程来实现报表数据源计算的利和弊. 一. 性能 说到存储过程的长处,性能是最常被提及的.存储过程进行报表数据计算的时候.不须要将数据取出数据库,会获得较高的性能.其主要原因是数据库IO通道(比如:JDBC)效率一向非常差,大量数据取出来非常费时间. 即便如此.这个问题还是要深入分析的: 1.写在存储过程中的SQL语句是预先编译的.因此比外部程序提交的SQL要

报表数据源的多重判断

报表在数据源准备阶段往往要根据实际业务进行各种判断计算以后才能得到最终的报表数据源,而使用SQL在这种情况下则难于编写,http://bbs.csdn.net/topics/390938280中提到的考勤问题就是其中之一,这个计算看起来是给财务或人力部门的考勤报表服务的.计算逻辑并不算复杂,但使用SQL却很难做,用存储过程(要取首尾记录)也很麻烦,而一般的报表工具由于不具备强计算能力,常常只能写用Java等写自定义数据源实现. 使用润乾集算报表来做则比较简单,这里以上述链接中的实际业务为例,给出

集算报表用Java动态修改报表数据源

实际应用中通过程序动态修改报表模板的情况很常见,其中动态修改数据源SQL就是一种典型场景.常见于系统中有一些结构相同而数据源不同的报表,为减少报表开发工作量,只开发一套报表模板,使用时通过程序动态修改数据源来满足实际需要. 下面通过一个使用JAVA程序修改集算报表数据源SQL的例子说明使用过程. 编辑报表模板: 由于不同数据源的字段不同,因此这里使用动态表达式ds1.fname()获取字段名,ds1.field()获取字段值.此外,第一行和第一列为辅助行列,设置其隐藏. 编写代码: 1.读入报表

润乾集算报表多样性数据源之Hadoop

多样性数据源在报表开发中越来越常见,润乾集算报表对多样性数据源的有效支持使得这类报表开发变得非常简单,目前集算报表支持的数据源类型除传统的关系型数据库外,还支持:TXT文本.Excel.JSON.HTTP.Hadoop.mongodb等. 对于Hadoop,集算报表既可以直接访问Hive,也可以读取HDFS中的数据,完成数据计算和报表开发.Hive的访问和普通数据库一样使用JDBC就可以,这里不再赘述了.下面通过一个例子来看直接访问HDFS的过程. 报表说明 股票交易记录按月以文本形式存储在HD

java pojo实体类做birt报表数据源

环境要求:到http://www.eclipse.org/downloads/下载 Eclipse IDE for Java and Report Developers 工具 第一步:创建一java项目ReportJava:第二步:创建包yss.com并编写一实体类User 作为报表中的数据对象 package com.yss; public class User {     private String name;     private String phone;     private S

JasperReports报表数据源10

数据源的结构数据容器.同时生成报告,Jasper报表引擎获得来自数据源的数据.数据可以从数据库,XML文件,对象数组和集合中的对象来获得.我们将在本章填充报告所看到的fillReportXXX()方法,预计将收到该报告的数据源其以填充,在net.sf.jasperreports.engine.JRDataSource对象或一个java.sql.Connection中的形式(当报表数据在关系数据库中找到). JRDataSource接口只有两个方法,这应该被实现: public boolean n

报表数据源之JSON

JSON作为一种轻量级数据格式应用非常广泛,报表读取json数据源进行报表开发的需求也很常见,另外有些报表还会接收来自HTTP服务器的数据进行报表展现.这里通过例子分别来看一下集算报表使用json数据源和http数据源的过程. 一般JSON数据源 报表说明 学生成绩在应用中以json文件存在,现需要汇总学生成绩,并按总成绩排名,结果以报表展现.报表样式如下: JSON文件中包含班级.编号.姓名.学科.成绩等信息,格式如下: [ { "class": "Class one&qu