【转】Kylin系列-使用Saiku+Kylin构建多维分析OLAP平台

关于Kylin的介绍和使用请参考之前的文章
《分布式大数据多维分析（OLAP）引擎Apache Kylin安装配置及使用示例》
Kylin对外提供的是SQL查询接口，基于Kylin构建OLAP多维分析系统，第一种方案是针对业务，定制开发一个前端界面，将界面上用户的选择和操作，翻译成SQL，提交给Kylin查询。另一种方案则是将Kylin与BI工具整合起来，借助BI工具，对Kylin中的Cube进行查询分析。Kylin本身对于BI工具Tableau可以非常好的整合使用，我自己下载了Tableau的试用版，效果确实不错，官方文档中也给出了详细的教程：

http://kylin.apache.org/cn/docs15/tutorial/tableau_91.html

可惜，Tableau是商业软件，收费的。

本文介绍另一个开源免费的BI工具–Saiku。
Saiku是一个轻量级的OLAP分析引擎，用户可以在非常友好的界面下利用OLAP和内存引擎进行向下钻取，过滤、分类、排序和生成图表。Saiku利用Mondrian完成了界面?MDX?SQL
的转换，最终将SQL通过JDBC提交给Kylin执行。

Github上已经有大神提供了编译好的相关jar包下载：

https://github.com/mustangore/kylin-mondrian-interaction

按照里面的说明，很简单就完成了Saiku+Kylin的整合部署。

Saiku中配置Kylin数据源

在浏览器输入Saiku的WEB地址：http://172.16.212.17:8080/
用户名密码为:admin/admin

STEP1：编写Mondrian Schema文件

<?xml version="1.0"?>
<Schema name="ad_schema">
<Cube name="lxw1234_ad_cube2">
<Table name="AD_REPORT" />
<Dimension name="地域">
<Hierarchy hasAll="false">
<Table name="AD_REPORT"></Table>
<Level name="省份" column="PROVINCE" table="AD_REPORT"></Level>
<Level name="城市" column="CITY" table="AD_REPORT"/>
</Hierarchy>
</Dimension>
<Measure name="曝光数" column="IMP_PV" aggregator="sum" datatype="Integer" />
<Measure name="唯一曝光数" column="COOKIEID_IMP" aggregator="distinct-count" datatype="Integer" />
<Measure name="点击数" column="CLK_PV" aggregator="sum" datatype="Integer" />
<Measure name="唯一点击数" column="COOKIEID_CLK" aggregator="distinct-count" datatype="Integer" />
</Cube>
</Schema>

STEP2：添加Kylin数据源

进入Saiku管理控制台，点击”Add Schema”，将编写好Schema文件上传。

接着点击”Add Data Source”，添加数据源：

STEP3：创建查询

回到Saiku Home主页，点击”Create a new query”，创建查询：

在多维数据下拉菜单中，选择Schema文件中定义好的Cube，自动获取指标和维度，双击指标和维度，在右边的区域即可自动进行查询展示。

Saiku中同样支持上钻、下钻、过滤、排序等操作。

存在的问题

在试用期间，发现两个严重的问题，导致Saiku和Kylin的整合甚至不能继续：

1. 事实表和维度表的join方式：

Mondrian中统一使用内关联(Inner
Join)的方式将事实表和维度表关联，而Kylin中，我的Cube是将事实表和维度表进行左关联(Left Join)生成的，因此不支持Inner
Join的查询。除非像我例子中的，把左右的维度名称都放置到事实表中，不和维度表关联，这样就没有问题。

2. Count Distinct的问题：

Mondrian对于Count Distinct的指标会翻译成SELECT COUNT(*) FROM (SELECT DISTINCT …)的形式，这种查询SQL提交给Kylin，并不支持，因此对于Count Distinct类型的指标无法查询分析。

看来要想很好的使用Saiku+Kylin，这两个问题还有待研究解决。

转自：lxw的大数据田地 » 使用Saiku+Kylin构建多维分析OLAP平台

原文地址：https://www.cnblogs.com/shujuxiong/p/9279797.html

时间： 2024-07-31 14:53:57

【转】Kylin系列-使用Saiku+Kylin构建多维分析OLAP平台

Saiku中配置Kylin数据源

STEP1：编写Mondrian Schema文件

STEP2：添加Kylin数据源

STEP3：创建查询

存在的问题

【转】Kylin系列-使用Saiku+Kylin构建多维分析OLAP平台的相关文章

大数据分析平台Apache Kylin的部署（Cube构建使用）

Kylin系列（一）—— 入门

Kylin系列之二：原理介绍

基于CentOS 6.5构建KVM服务器平台、网络和存储、公钥和私钥的建立

漫谈构建运维平台化2014运维线下沙龙(北京站) | 峰云就她了

Jmeter+maven+Jenkins构建云性能测试平台（mark 推荐）

构建大型云计算平台分布式技术的实践

(八) 构建dubbo分布式平台-maven构建ant-framework核心代码annotation

(七) 构建dubbo分布式平台-maven构建ant-framework框架的pom.xml文件配置