cdh5.14.2中集成安装kylin与使用测试

cdh5.14.2中集成安装kylin与使用测试

标签(空格分隔): 大数据平台构建


  • 一:kylin 简介
  • 二:安装配置kylin
  • 三:kylin 运行实例

一:kylin 简介

Apache Kylin?是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

kylin 软件下载:

社区版kylin下载地址:https://archive.apache.org/dist/kylin/ ,本次测试使用apache-kylin-2.3.1.tar.gz 

二:在cdh5.14.2 上面配置安装kylin

2.1: kylin 安装的环境配置

login: node-01.flyfish

tar -zxvf apache-kylin-2.3.1-cdh57-bin.tar.gz -C /usr/local/

cd /usr/local/

mv apache-kylin-2.3.1-bin/ kylin

vim /etc/profile
----
### kylin ####
export KYLIN_HOME=/usr/local/kylin
PATH=$PATH:$HOME/bin:$KYLIN_HOME/bin
---
source /etc/profile

2.2:kylin的启动验证

cd /usr/local/kylin/
./check-env.sh

su - hdfs 

hdfs dfs -chmod -R 777 /

从新检测处理
cd /usr/local/kylin/
./check-env.sh

启动kylin
./kylin.sh start 

默认用户名:ADMIN
密码:KYLIN

三:kylin 运行实例使用测试

cd /usr/local/kylin/bin

./sample.sh

从启kylin

cd /usr/local/kylin/bin
./kylin.sh stop
./kylin.sh start

重新刷新kylin的元数据

impala的加载表:
impala-shell -i "INVALIDATE METADATA"
单独刷新一张表:
refrash  + 表名

hive 的default库 当中多了几张kylin的表

构建cube 

这个地方如果机器配置不够的话,尽量日期间隔选小一点。

这一步会比较耗时,因为这步会进行预计算,默认是MapReduce作业。

kylin的数据查询

查询构建完成的cube
先运行简单的count,可以看到耗时4.12s,再次执行基本在0.5s级,基本是毫秒级别
就可以查询出来,这是因为kylin 支持缓存的功能

复杂的查询:

select sum(KYLIN_SALES.PRICE)
as price_sum,KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME
from KYLIN_SALES inner join KYLIN_CATEGORY_GROUPINGS
on KYLIN_SALES.LEAF_CATEG_ID = KYLIN_CATEGORY_GROUPINGS.LEAF_CATEG_ID and
KYLIN_SALES.LSTG_SITE_ID = KYLIN_CATEGORY_GROUPINGS.SITE_ID
group by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME
order by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME asc,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME desc

四:kylin 运行实例二

4.1 数据文件准备

create_table.sql  department.csv  employee.csv

4.2 在hdfs 上面创建文件上传

在hdfs 上面创建上传目录

hdfs dfs -mkdir /kylin-test

hdfs dfs -put department.csv  employee.csv /kylin-test

4.3 在hive 上面执行sql 脚本加载数据与验证

执行create_table.sql 

create_table 内容如下
---
DROP TABLE IF EXISTS employee;

CREATE TABLE employee(
id int,
name string,
deptId int,
age int,
salary float
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,‘
STORED AS TEXTFILE;

DROP TABLE IF EXISTS department;

CREATE TABLE department(
id int,
name string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,‘
STORED AS TEXTFILE;

LOAD DATA INPATH ‘/kylin-test/employee.csv‘ OVERWRITE INTO TABLE employee;
LOAD DATA INPATH ‘/kylin-test/department.csv‘ OVERWRITE INTO TABLE department;
---

在hive 中执行create_table.sql 

hive -f create_table.sql 

hive -e "use default;select * from employee"

hive -e "use default;select * from department" 

4.4 在kylin 上面创建project

加载hive数据到kylin当中

创建model,入project的名称和描述:

选择事实表,并点击add Lookup Table查询表

选择维度字段

创建cube

cube创建完成

构建cube

查询测试:
 select count(*) from department;

 select max(salary) from EMPLOYEE;

统计各部门员工薪资总和:

select d.ID,sum(e.SALARY) as salary from EMPLOYEE as e left join DEPARTMENT as d on e.DEPTID=d.id group by d.ID order by salary desc

原文地址:http://blog.51cto.com/flyfish225/2128254

时间: 2024-10-29 21:58:48

cdh5.14.2中集成安装kylin与使用测试的相关文章

在CDH5.14.4 中安装StreamSets与案例运行

在CDH5.14.4 中安装StreamSets与案例运行 标签(空格分隔): 大数据平台构建 一: Streamset 简介与系统环境介绍 二: 安装软件准备 三: 在CDH5.14.4 集成使用StreamSets 四: streamsets 基本使用案例运行 一: Streamset 简介与系统环境介绍 1.1: StreamSet 简介 StreamSets由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2

在CDH5.14.2中安装Phoenix与使用

在CDH5.14.2中安装Phoenix与使用 标签(空格分隔): 大数据平台构建 一:安装及配置Phoenix 二:Phoenix的基本操作 三:使用Phoenix bulkload数据到HBase 四:使用Phoenix从HBase中导出数据到HDFS 一:安装及配置Phoenix 1.0:phoienx 的介绍 Phoenix中文翻译为凤凰, 其最早是Salesforce的一个开源项目,Salesforce背景是一个搞ERP的,ERP软件一个很大的特点就是数据库操作,所以能搞出一个数据库中

在CDH5.14.2 中启用kudu的配置与验证

在CDH5.14.2 中启用kudu的配置 标签(空格分隔): 大数据平台构建 一: 系统平台介绍 二: 安装kudu的集成 一: 系统平台介绍 1.1. 关于kudu的介绍 Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺. Hadoop生态系统有很多组件,每一个组件有不同的功能.在现实场景中,用户往往需要同时部署很多Hadoop工具来解决同一个问

在Ubuntu 14.10中如何安装和配置‘天气信息指示器’

在Ubuntu桌面中有各种提供天气信息的方法,你可以使用Unity Dash和桌面应用来获得天气信息,比如 Typhoon . 但是可以提供快速查询天气状况和温度数据,并且只需要一次鼠标点击而获得大量气象数据的面板插件,才是到目前为止Linux平台下最受欢迎的天气应用. Atareao开发的 My Weather Indicator 就是这类应用中的一个,也可以说是最好的一个. 它在Unity面板上显示实时温度和天气状况,并且有一个包括体感温度.云量和日升日落时间等天气数据的菜单.除此之外,该应

如何在Ubuntu 14.04中安装最新版Eclipse

想必很多开发人员都知道,Ubuntu 软件源中提供的并不是最新版本的 Eclipse,本教程就教大家如何在 Ubuntu 14.04 中快速安装 Eclipse 官方发布的最新版本. 到目前为止,Eclipse 的官方最新版本为 Eclipse Kepler (4.3.2),我们可以使用如下步骤在 Ubuntu 14.04 或其它 Ubuntu 版本中进行快速安装. 1.安装OpenJDK Java 7 如果你的系统中没有安装 Java,我们需要按如下步骤事先安装好 OpenJDK Java 7

转:如何在Ubuntu 14.04中安装最新版Eclipse

想必很多开发人员都知道,Ubuntu 软件源中提供的并不是最新版本的 Eclipse,本教程就教大家如何在 Ubuntu 14.04 中快速安装 Eclipse 官方发布的最新版本. 到目前为止,Eclipse 的官方最新版本为 Eclipse Kepler (4.3.2),我们可以使用如下步骤在 Ubuntu 14.04 或其它 Ubuntu 版本中进行快速安装. 1.安装OpenJDK Java 7 如果你的系统中没有安装 Java,我们需要按如下步骤事先安装好 OpenJDK Java 7

CDH5.14.2 的Navigator介绍与安装

CDH5.14.2 的Navigator介绍与安装 标签(空格分隔): 大数据平台构建 一:Navigator介绍 二:Navigator安装 三:如何连接Navigator 一:Navigator介绍 Cloudera Navigator也是CDH企业版的工具之一,定位为一个数据管理工具.Hadoop大数据平台拥有存储与分析任何种类和规模数据的能力,并且将其开放给更多用户和分析工具. Cloudera Navigator是唯一为大数据和Apache Hadoop提供集成数据管理和监管的工具.C

Red Hat Linux6.8 中的安装ActiveMQ 5.14.1

Linux中的安装ActiveMQ 5.14.1 1.下载相关ActiveMQ安装包 下载路径:http://activemq.apache.org/download.html 下载最新安装包,选择Linux版进行下载 2.解压重命名 (1)解压: # tar -zxvf  apache-activemq-5.14.1-bin.tar.gz -C /usr/local (2)重命名activeMQ # mv apache-activemq-5.14.1 ActiveMQ (3)由于启动脚本act

怎样在Ubuntu 14.04中安装Java(转)

想知道如何在Ubuntu 14.04中安装Java?安装Java肯定是安装Ubuntu 14.04后首先要做的几件事情之一(见http://www.linuxidc.com/Linux/2014-04/100398.htm),而且这也很简单. 许多人比较厌恶Java,但是很有可能因为某些原因你需要安装Java,尽管你很讨厌它.在这篇文章中,我们将展示如何在Ubuntu 14.04安装Java(也可能在Linux Mint 17同样适用). JRE vs OpenJDK vs Oracle JDK