一招教你解决大数据量下的各种报表使用问题

在我们日常制作报表分析过程中,总会遇到各种问题。比如,报表底层数据日益增多、报表加载超慢,这些情况该怎么解决?

数据库是最常见的能处理大数据的计算方案,而永洪能利用数据库来完成数据计算。但是,有些报表的计算较为复杂,使用SQL实现会非常困难,这时,我们就会采用永洪报表呈现的直观计算方式来完成数据的计算,这种方式导致后台要直接处理大数据,不仅性能低下,而且很容易造成报表加载时间过长。

今天这篇文章,主要介绍永洪数据集市数据集,这种方式提供强大、便捷的数据处理方式,用户可以轻松应对大数据量场景下报表加载过慢的问题。

一、实现功能

将查询结果按天增量导入永洪集市并对集市文件按天打上索引,永洪报表在处理逻辑时只会扫描查询日期内的数据。

二、实现步骤

1、设置参数

创建一个名为TEST_YH的SQL数据集,在查询条件中加上参数<etd_date_lm>,此参数为动态获取昨日日期,后续会提到。

2、新建作业

在调度作业中新建任务,其中类型设置为:增量导入数据,数据集为上一步创建的TEST_YH的SQL数据集,文件夹为存放文件的名称,最后我们选择追加数据。

在任务最下方的脚本中设置可以动态获取昨天日期的参数<etd_date_lm>参数,setMeta("search_data_index",formatDate(a,"yyyy-MM-dd")) 是用来给数据集市文件设定属性的,在数据集市数据集中可通过过滤条件查看这个属性。

file = formatDate(a,"yyyy-MM-dd") 是创建一个数据集市文件的文件名。

3、生成文件

在调度任务中运行此作业,就可以生成文件了。

我们还可以进一步在管理系统下监控预警中的数据集市文件信息统计中进一步查看上一步生成的文件。

4、读取数据

创建数据集市数据集,在文件夹中选择之前生成的文件,文件过滤中根据需求选择前台传递的时间参数。

以上就是关于永洪数据集市数据集的使用介绍,永洪科技强大的产品功能,可以轻松应对大数据量下的报表使用。

原文地址:https://blog.51cto.com/14637453/2468189

时间: 2024-10-12 03:41:51

一招教你解决大数据量下的各种报表使用问题的相关文章

hadoop job解决大数据量关联时数据倾斜的一种办法

转自:http://www.cnblogs.com/xuxm2007/archive/2011/09/01/2161929.html http://www.geminikwok.com/2011/04/02/hadoop-job解å?³å¤§æ?°æ?®é??å?³è??æ—¶æ?°æ?®å?¾æ??ç??ä¸?ç§?å??æ³?/ 数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为

SQLSERVER 文件组解决大数据量数据存储

如何使用文件组解决大数据量的读写性能差问题,具体操作步骤如下: 在企业管理器中,右键点你的数据库,选属性,选数据文件,新增一个,文件填一下,位置填一下,文件组填一个,比如abc---确定. 然后你可以右键点你数据库里面的表,设计表,再点右键,属性,然后把表文件组和文本文件组改成abc,就把你原来的表从原来的大mdf文件中分解到你的新增文件中了. 再增加文件的话,方法同上,目的就是把主文件(MDF)拆分成多个文件:利用文件组的好处是不改变数据库的数据,能把已有的mdf文件拆分成多个 最后,一定要使

MySQL数据库如何解决大数据量存储问题

利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史数据表,这两张表字段设计的很简单(OrderNo,Value,DataTime).基本上每张表每天可以增加几千万条数据,我想问如何存储数据才能不影响检索速度呢?需不需要换oracle数据库呢?因为我是数据库方面的新手,希望可以说的详细一点,万分感谢!!?-0-#暂时可以先考虑用infobri

利用MySQL数据库如何解决大数据量存储问题?

提问:如何设计或优化千万级别的大表?此外无其他信息,个人觉得这个话题有点范,就只好简单说下该如何做,对于一个存储设计,必须考虑业务特点,收集的信息如下:1.数据的容量:1-3年内会大概多少条数据,每条数据大概多少字节: 2.数据项:是否有大字段,那些字段的值是否经常被更新: 3.数据查询SQL条件:哪些数据项的列名称经常出现在WHERE.GROUP BY.ORDER BY子句中等: 4.数据更新类SQL条件:有多少列经常出现UPDATE或DELETE 的WHERE子句中: 5.SQL量的统计比,

大数据量下的高并发分布式访问控制(ACL)优化方案(一)

目前的设计方案 1.1.控制计数: 在目前的项目中,有很多接口需要对访问方进行权限访问控制.目前设计方案是:利用redis集群来存储每个访问控制点的访问计数信息.Key值为=PlatformId(接入平台方)+InterfaceId(系统接口)+dayTime(日期时间),value值为当天每个时段的访问次数统计列表. 1.2.控制规则: 通过页面配置并制定控制规则.业务系统在启动时加载控制规则,并访问redis获取控制次数,然后在业务系统中做逻辑判断完成,ACL控制做请求拦截处理. 目前的痛点

大数据量下的SQL Server数据库自身优化 (转载)

1.1:增加次数据文件 从SQL SERVER 2005开始,数据库不默认生成NDF数据文件,一般情况下有一个主数据文件(MDF)就够了,但是有些大型的数据库,由于信息很多,而且查询频繁,所以为了提高查询速度,可以把一些表或者一些表中的部分记录分开存储在不同的数据文件里 由于CPU和内存的速度远大于硬盘的读写速度,所以可以把不同的数据文件放在不同的物理硬盘里,这样执行查询的时候,就可以让多个硬盘同时进行查询,以充分利用CPU和内存的性能,提高查询速度. 在这里详细介绍一下其写入的原理,数据文件(

大数据量下高并发同步的讲解

对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了.而并发问题是绝大部分的程序员头疼的问题, 但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧. 为了更好的理解并发和同步,我们需要先明白两个重要的概念:同步和异步    1.同步和异步的区别和联系         所谓同步,可以理解为在执行完一个函数或方法之后,一直等待系统返回值或消息,这时程序是出于阻塞的,只有接收到 返回的值或消息后才往下执行其它的命令. 异步,

大数据量下高并发同步的讲解(转)

文章转自:http://blog.csdn.net/xcw931924821/article/details/52475742 *************************************************************************************************************************************************************************************** 对于

大数据量下高并发同步的讲解(不看,保证你后悔)

对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了.而并发问题是绝大部分的程序员头疼的问题, 但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧. 为了更好的理解并发和同步,我们需要先明白两个重要的概念:同步和异步    1.同步和异步的区别和联系          所谓同步,可以理解为在执行完一个函数或方法之后,一直等待系统返回值或消息,这时程序是出于阻塞的,只有接收到 返回的值或消息后才往下执行其它的命令. 异步