【总结】Kylin创建Cube

根据上篇文章Kylin创建Model之后,创建Cube

第一步,Cube Info

填写Cube基本信息

第二步,Dimensions

第三步,Measures

第四步,Refresh Setting

Auto Merge Thresholds :自动合并阈值,按天增加的segement,每7天合并一次;7天的segment每28天合并一次

Retention Threshold:默认为0,保留历史所有的segment(hotelinfo每个分区都是全量数据,所以此处只保留一天的数据)

Partition Start Date:分区开始时间

第五步,Advanced Setting

Mandatory Dimensions:强制维度,表示当前ID的Aggregation Group中的所有Cuboid的每一个Cuboid都包含该项配置的维度

Hierarchy Dimensions:层级维度,当有多个维度能够存在层级关系,可以在该配置项中,将这些维度配置为层级维度

例如,国家,省,城市三个维度

Joint Dimensions:联合维度,联合维度中的多个维度,在查询中,要么一起出现,要么都不出现。

Encoding:编码,指定了该维度的值应该使用何种方式进行编码,选用合适的编码能够有效减少维度对空间是使用,在大数据量情况下效果明显。

Shard By:按维度对数据进行分片,默认Cuboid的数据分片策略是随机的,并且只能设置一个维度为Share By。

如果Cuboid中的某些行的Shard By Dimension的值是相同的,那么这些行的数据最终将会分配到同一个分片中。

例如:好多酒店都在一个城市当中,如果将CITYID维度设置为Share By,则同一个城市的酒店数据将分配到同一个分片中。

第六步,Configuration Overwrites

覆盖kylin.properties中的配置

第七步,Overivew

Cube概览,点击Save保存

时间: 2024-12-21 04:05:41

【总结】Kylin创建Cube的相关文章

Kylin构建Cube过程详解

1 前言 在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就可以进行多次build,每一次的build会生成一个segment,每一个segment对应着一个时间区间的cube,这些segment的时间区间是连续并且不重合的,对于拥有多个segment的cube可以执行merge,相当于将一

【总结】Kylin创建Model

根据如下四类表数据,创建Model, 事实表为酒店信息表,其余三张维度表是城市信息,行政区信息,商圈信息.酒店信息表中有外键分别与地域相关三张表关联 DICT_CITYINFO DICT_HOTELINFO DICT_REGIONINFO DICT_ZONEINFO 第一步 Model Info Model的基本信息 第二步 Data Model 选择事实表,依次关联Looup Table.以hotelinfo为基础,我们采用inner joint 关联城市表: 关联行政区表 关联商圈表 第三步

SSAS系列——【06】多维数据(创建Cube)

原文:SSAS系列--[06]多维数据(创建Cube) 1.文件类型说明 项目定义文件 (.dwproj).项目用户设置 (.dwproj.user).数据源文件 (.ds).数据源视图文件 (.dsv).多维数据集文件 (.cube).分区文件 (.partitions).维度文件 (.dim).挖掘结构文件 (.dmm).数据库文件 (.database).数据库角色文件 (.role).第一次启动,纪念贴. 图 启动界面 留念 图 默认文件夹中内容 2.创建数据源.数据源视图.维度.定义和

解决kylin build cube第一步报错:java.lang.NullPointerException

报错栈: 2017-06-19 10:27:35,757 ERROR [pool-9-thread-4] threadpool.DefaultScheduler:140 : ExecuteException job:933bc47a-302c-48fa-8ec9-ae8730057175 org.apache.kylin.job.exception.ExecuteException: org.apache.kylin.job.exception.ExecuteException: java.la

kylin build cube #3 Step Name: Extract Fact Table Distinct Columns

java.lang.NoSuchMethodError: org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashLong(J)I at org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashCode(YarnProtos.java:11782) at org.apache.hadoop.yarn.api.records.impl.pb.LocalReso

Apache Kylin高级部分之使用Hive视图

本章节我们将介绍为什么需要在Kylin创建Cube过程中使用Hive视图:而如果使用Hive视图,能够带来什么好处,解决什么样的问题:以及需要学会如何使用视图,使用视图有什么限制等等. 1.      为什么需要使用视图 Kylin创建Cube的过程中使用Hive的表数据作为输入源.但是有些情况下,Hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要进行处理,有些列的类型不满足需求,甚至有时候我们在创建Hive表时为了方便快捷,会将Hive表的所有列的字段类型都定义为string,因

Kylin-实践OLAP

OLAP的历史与基本概念 OLAP全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案.典型的OLAP应用场景包括销售.市场.管理等商务报表,预算决算,经济报表等等. 最早的OLAP查询工具是发布于1970年的Express,然而完整的OLAP概念是在1993年由关系数据库之父EdgarF.Codd 提出,伴随而来的是著名的"twelvelaws of online analytical processing". 1998年微软发布MicrosoftAnalysis Servi

大数据分析平台Apache Kylin的部署(Cube构建使用)

前言 Apache Kylin是一个开源的分布式分析引擎,最初由eBay开发贡献至开源社区.它提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持大规模数据,能够处理TB乃至PB级别的分析任务,能够在亚秒级查询巨大的Hive表,并支持高并发. Kylin的理论基础:空间换时间. Kylin从数据仓库中最常用的Hive中读取源数据,使用 MapReduce作为Cube构建的引擎,并把预计算结果保存在HBase中,对外暴露Rest API/JDBC/ODBC的查询接口. 部署Kyli

kylin cube 构建过程

本文是对 http://kylin.apache.org/docs20/howto/howto_optimize_build.html的翻译,以便阅读. 1.  创建 Hive 中间表(Create Intermediate Flat Hive Table) 这个过程会把 cube 中用到的所有 Hive 表(包括 look at 的表)汇聚成一张表.如果 Cube 是分区的,kylin 会增加时间条件以获取相应的数据.此过程的输出大致如下: hive -e "USE default; DROP