集算器(仓库版)发布,黑科技获得用户好评

2018年5月16日,集算器(仓库版)携带多项黑科技正式发布。

在发布之前的应用验证中,仓库版就已经用实力赢得了用户的好评。北京银行用户在评价仓库版时表示:在数据分析实践中,高并发访问、大数据量计算造成的系统响应时间过长的问题,始终没有得到很好的解决。集算器(仓库版)的出现,彻底解决了这个难题!用集算器将高频次热点数据前置,构建数据计算中间层,可以说是最佳解决方案,在很多场景下要优于价值百万的数据库产品!

实际的测试也证明,集算器(仓库版)确实表现优异!以性能指标为例,测试目标是高频热点数据,单日三千万行。集算器和GreenPlum执行同样的条件查询,集算器仅用2秒完成,GreenPlum执行了5秒。GP测试环境是5个节点集群,每个节点是2*6核CPU,96G内存的实体机;而集算器所在的服务器仅是1*2核CPU,16G内存的虚拟机。能够大幅超越GP,足见黑科技的威力!

究竟是什么样的黑科技能以如此优异的表现赢得用户的好评呢?下面,我们就一一道来:

黑科技之一:组表

组表又称组合表,是集算器(仓库版)数据存储的基本方式。组表支持数据的部分修改,支持更新恢复,可以安全方便的从全量数据源中同步热点数据。组表支持索引,而且数据本身就是有序存放的,常用的条件过滤计算不依赖索引也能保证高性能。索引在数据修改之后自动更新。

在上边提到的测试中,采用的是列存硬盘存储的方式。组表也可以采取行存和全内存存储数据,支持内存数据库方式运行。

黑科技之二:可并行列存

组表采用的列存机制和常规列存是不同的。常规列存(比如parquet格式),只能分块之后,再在块内列存,在做并行计算的时候是受限的。组表的可并行压缩列存机制,采用倍增分段技术,允许任意分段的并行计算,可以利用多CPU核的计算能力把硬盘的IO发挥到极致。

黑科技之三:集群组表

组表除了具备上述特性之外,还支持把数据分布在多台机器上形成集群组表。集群组表可以利用多机并行来横向扩展计算能力和存储容量。在用法上,集群组表和普通组表是基本相同的。也就是说,集群组表是透明集群,使用者无需关心多节点组表的细节,可以当成一个组表来用。

黑科技之四:主附表统一

有些数据表是同维(一对一)关系或者主子关系。比如:客户表、VIP客户表;用户基本信息、家庭信息、教育经历、工作经历;订单、订单明细。

主附表统一是指将同维表或者主子表放到一个组表中,只存放一份主键。还可以省去这些表的连接(JOIN)计算,减小存储空间,有效提高性能。

黑科技之五:序号键技术

外键关系的连接(JOIN)计算也比较常见,比如销售记录表通过“商品编号”和商品表关联。序号键技术就是把销售记录中的商品编号都改成整数,这个数就是该商品编号对应的商品在商品表中的次序号。

序号键技术使得外键连接(JOIN)计算可以直接使用序号定位,不需要计算和比较HASH值,减少计算时间,提高性能。同时,使用序号键技术这种外键式连接技术方案,很容易把多个连接(JOIN)并行执行。

黑科技之六:JDBC智能网关

集算器对外提供JDBC驱动和简单SQL接口,具备可编程网关机制。通过编写集算器内置的新一代编程语言SPL代码,可以自由的实现高频次热点数据的计算规则。

可以考虑的计算规则包括:分析前端传入的SQL过滤条件中的日期参数,如果命中集算器(仓库版)已经缓存的日期,则认为是热点数据,直接访问。没有命中,则将SQL转发给后台传统数据库执行。集算器还可以记录访问情况,用于分析热点数据的时间和空间分布。



具备诸多黑科技的集算器(仓库版)已经可以与传统数据库、内存数据库等昂贵的产品一较高下,但是其价格却又非常的实在和优惠。可以预见,这款产品必将为您的软件项目带来新的价值和机遇。现在,润乾官网提供全功能的试用版本,立即下载体验吧!

原文地址:http://blog.51cto.com/12749034/2121490

时间: 2024-08-01 13:23:20

集算器(仓库版)发布,黑科技获得用户好评的相关文章

集算器JDBC的集成与使用方法

集算器JDBC 类似一个不完整的数据库JDBC驱动,它不带物理表,可将集算器视为只有存储过程的数据库(较强的计算能力,较弱的存储机制).与使用数据库JDBC非常类似,可以像调用存储过程一样调用集算器程序.不同的是,集算器JDBC是个完全嵌入式计算引擎,所有运算都在这个嵌入包中完成,而不象数据库那样还有一个独立的服务器来实施计算. 1.加载驱动jar 集算器JDBC所需jar包括:dm.jar.poi-3.7-20101029.jar.log4j_128.jar.icu4j_3_4_5.jar.d

集算器协助java处理多样性数据源之MongoDB

MongoDB不支持join,其官网上推荐的unity jdbc可以把数据取出来进行二次计算实现join运算,但这些join.group.函数.表达式等高级功能都是收费版才有,而且即使是收费版本,对子查询.窗口函数等复杂SQL运算仍不支持.其他免费的jdbc drive就只能支持最基本的SQL语句了. 用免费的esProc配合MongoDB,可以实现上述结构化(半结构化)复杂计算.这里以join为例说明一下具体作法. MongoDB中的文档orders保存了订单数据,employee保存了员工数

润乾集算报表的集算器数据集部署(2)

2.WEB端部署 集算报表在web端部署流程与一般J2EE应用部署流程基本一致,包括: 如果和已有应用集成,一般来说已有应用已经配置好了数据库连接池,因此第一.第二步骤可以省略,只需要后面几个步骤. 配置应用服务器的数据库连接池.发布报表应用这两个步骤在不同应用服务器中的操作界面和操作方法是有区别的,举例来说,发布报表应用这个步骤,在weblogic和websphere中一般是发布一个war包或者是ear包,而在tomcat中就是在server.xml或context.xml中配置,可以不打wa

集算器与BIRT的集成过程

集算器提供了标准JDBC与报表工具集成,可以方便地与BIRT集成web端部署过程.下面就开发环境和WEB应用环境分别说明集成过程. 1. 开发环境下集成 1.1.创建配置文件 创建集算器JDBC必须的两个配置文件config.xml和dfxConfig.xml. 1.1.1. config.xml <?xml version="1.0"encoding="UTF-8"?> <Config Version="1"> <

集算器协助MongoDB计算之数位比较

Mongodb脚本解决复杂问题的计算能力有限,直接使用时较为吃力.很多情况下需要将数据读出后在主程序中进一步完成运算,而在Java等高级语言中编写这类集合式运算也比较麻烦.这时可以用集算器esProc来辅助,本文通过例子来说明使用方法. Mongodb中有一个test集合如下: >db.test.find({},{"_id":0}) {"value" : NumberLong(112937552) } {"value" : NumberLo

润乾集算报表从集算器获得多个结果集的示例

集算器可以为集算报表输出多个结果集,供报表使用.这里通过一个实例说明. 报表说明 根据学生成绩表查询总成绩前三名和后三名的学生姓名以及总成绩.报表样式如下: 由于要分别显示前三名和后三名学生姓名和成绩,报表自然地分成了两部分.这两部分数据如果使用一个数据集会需要隐藏格辅助,使用两个数据集则比较简单,一个数据集基于原始数据进行分组汇总.按总成绩降序排序后取前三名,第二个数据集按升序取前三名.但这个过程用SQL去写会发生重复计算(分组汇总和排序),通过集算器则不会有这个问题,且可以一次为集算报表返回

集算器协助MongoDB计算之交叉汇总

MongoDB实现交叉汇总比较困难,如果将数据取出,用Java等高级语言来汇总的话,也相当复杂.因此,可以考虑用集算器esProc辅助MongoDB完成交叉汇总.下面我们通过一个例子来看一下具体做法. Student集合如下: db.student.insert  ( {school:'school1', sname : 'Sean' , sub1:4, sub2 :5 }) db.student.insert  ( {school:'school1', sname : 'chris' , su

集算器协助MongoDB计算之本地化排序

对于本地化语言(例如:中文),MongoDB是按照UNICODE编码排序,而不是根据本地语言的编码排序.用esProc结合MongoDB可以方便的实现本地化语言的排序(例如:中文按照拼音排序).下面我们以中文为例,来看一下具体做法. MongoDB中的集合person保存了姓名和性别如下: >db.person.find() {"_id" : ObjectId("544e4e070f03ad39eb2bf498"),"name" : &qu

集算器替代存储过程实现报表数据源

存储过程是SQL语句和流程控制语句的集合,常用来把一个复杂的计算目标分解为多个简单的计算步骤.虽然以复杂性换来了灵活性,但SQL语句固有的缺点仍然体现在存储过程中,比如:分步不彻底.数据无序.缺乏集合.缺乏引用,之前我们也分析过存储过程作为报表数据源的利弊,可点击这里查看. 集算器解决了存储过程的上述缺陷,降低了对开发人员的技术要求,是存储过程理想的替代工具. 报表例子说明 某电信产品厂商有一张报表,主要目的是分析优势产品的销售额.销量.环比等指标,其中优势产品的定义是"在每个州的销量均在前10