Kylin安装部署

一、安装准备

1、操作系统 Centos 7.x

2、时间问题

集群内所有节点时间一定要同步。

NTP、Chrony

3、用户

创建hadoop组和hadoop用户,并做ssh免密码登录

4、Hadoop HA集群

Hadoop 2.7.3

5、HBase

hbase 1.x

6、Hive

Hive 1.2.1,使用  mysql 存放元数据

7、准备目录

# mkdir /install

# cd /install

# chown -R hadoop:hadoop /install

8、kylin

kylin 1.6.0 这个版本支持hbase1.x版本

apache-kylin-1.6.0-HBase1.1.3-bin.tar.gz

$ tar xf apache-kylin-1.6.0-hbase1.x-bin.tar.gz  -C  /install

$ cd /install

$ mv apache-kylin-1.6.0-bin/ kylin

#代表在root用户下

$代表普通用户

二、环境变量配置

部署每个节点

hadoop用户的 .bashrc

export HADOOPROOT=/install

export HADOOP_HOME=$HADOOPROOT/hadoop

export ZOOKEEPER_HOME=$HADOOPROOT/zookeeper

export HBASE_HOME=$HADOOPROOT/hbase

export HIVE_HOME=$HADOOPROOT/hive1.2

export HCAT_HOME=$HIVE_HOME/hcatalog

export KYLIN_HOME=$HADOOPROOT/kylin

export CATALINA_HOME=$KYLIN_HOME/tomcat

export hive_dependency=$HIVE_HOME/conf:$HIVE_HOME/lib/*:$HCAT_HOME/share/hcatalog/hive-hcatalog-core-1.2.1.jar

PATH=$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin

PATH=$PATH:$HBASE_HOME/bin:$FLUME_HOME/bin:$HIVE_HOME/bin:$HCAT_HOME/bin

PATH=$PATH:$CATALINA_HOME/bin:$KYLIN_HOME/bin

export PATH

基本的配置已经做好了,安装从以下步骤开始

三、配置kylin

修改bin/kylin.sh

export KYLIN_HOME=/install/kylin

export HBASE_CLASSPATH_PREFIX=${tomcat_root}/bin/bootstrap.jar:${tomcat_root}/bin/tomcat-juli.jar:${tomcat_root}/lib/*:$hive_dependency:$HBASE_CLASSPATH_PREFIX

压缩问题

关于压缩的问题

本次不是用snappy,如果需要事先重新编译Hadoop源码,使得native库支持snappy

使用snappy能够实现一个适合的压缩比,使得这个运算的中间结果和最终结果都能占用较小的存储空间

1、 kylin.properties

1)设置Rest Server

kylin.rest.servers=192.168.56.201:7070

默认为PST,修改为中国时间

kylin.rest.timezone=GMT+8

2)不启用压缩,注释即可

#kylin.hbase.default.compression.codec=snappy(注释掉或者设置为None)

3)定义kylin用于MR jobs的job.jar包和hbase的协处理jar包,用于提升性能(添加项)。

kylin.job.jar=/installsoftware/ kylin-1.6.0/lib /kylin-job-1.6.0.jar

kylin.coprocessor.local.jar=/installsoftware/ kylin-1.6.0/lib/kylin-coprocessor-1.6.0.jar

2、kylin_job_conf.xml

不使用压缩

mapreduce.map.output.compress设置为false

mapreduce.output.fileoutputformat.compress 设置为false

3、kylin_hive_conf.xml

不使用压缩

hive.exec.compress.output 设置为false

四、启动服务

Kylin工作原理图

支撑服务启动

1、首先看一下时间是否同步

2、启动3个节点的ZooKeeper

zkServer.sh start

start-dfs.sh

start-yarn.sh

或者start-all.sh

mr-jobhistory-daemon.sh start historyserver要到所有NM上启动,可以写成脚本

start-hbase.sh> list

这里可以启动hive客户端看看

$ hive

> show tables;

检查

1、检查基础的服务

Hadoop、HBase、Hive、环境变量、工作目录

2、hive依赖检查

find-hive-dependency.sh

3、hbase依赖检查

find-hbase-dependency.sh

启动kylin

bin/kylin.sh start

停止过程

bin/kylin.sh stop

stop-hbase.sh

mr-jobhistory-daemon.sh stop historyserver

stop-yarn.sh

stop-dfs.sh

zkServer.sh stop

可以写成脚本

五、登录

http://node1:7070/kylin

ADMIN/KYLIN登录

六、样例数据测试

启动kylin后,运行bin/sample.sh

查看sample.sh脚本内容

实际上操作的是sample_cube目录下的数据和脚本

重启kylin服务

看看hive和hbase

Hive中kylin的元数据信息

默认有一个Cube定义,需要Build。

Monitor中监视整个构建过程

Cube构建成功后状态会变成Ready状态

构建Cube过程根据集群性能的不同而不同

七、查询时间对比

测试语句

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt order by part_dt;

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales where part_dt<‘2013-01-01‘ group by part_dt order by part_dt;

hive执行时间

Time taken: 168.643 seconds, Fetched: 365 row(s)

kylin中

第一次 1.33S

第二次 0.38s

第三次 0.33s

第四次 0.34s

看来有缓存

select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt having sum(price)>1200 order by part_dt

到此Kylin的前期安装部署已经完毕

时间: 2024-10-09 13:07:15

Kylin安装部署的相关文章

Ambari2.6安装部署Hadoop2.7

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应.管理和监控.Ambari已支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeper.Sqoop和Hcatalog等.Apache Ambari 支持HDFS.MapReduce.Hive.Pig.Hbase.Zookeper.Sqoop和Hcatalog等的集中管理.也是5个顶级hadoop管理工具之一.Ambari能够安装安全的(基于Kerberos

Python实现一键安装部署LNMP环境

最近一直在学Python,东西比较多,时间持续的也比较长,为了能够学以致用,想到了原来写过的shell一键安装部署LNMP脚本,既然shell能写,Python也一定能写,就用学到的知识写了下面这个版本,这可能并不是最优版本,等学到更多东西的时候再进行优化升级! 环境介绍: Python 2.6.6 Centos 6.5 nginx 1.10.1 mysql 5.6.34 php 5.3.3 代码如下: #!/bin/env python import os import sys def ent

linux运维之weblogic12.1.3安装部署

安装最新的weblogic版本,版本号为 12.1.X(12.1.2,12.1.3).开始以为和旧版安装一样,使用控制台的方式,下载bin文件,然后一步步在console执行下来就行了.万万没想到,从12C版本后,bin文件不提供了,改成全系统通用的jar文件 (generic.jar).试了半天原来那种安装方式不能用了,非得用图形界面安装.由于服务器只能远程登录,于是各种百度.各种找材料,最后终于找到一种静默方式的安装.请看下文. weblogic12C各版本所支持的JDK版本: fmw_12

Sqlserver2008安装部署文档

Sqlserver2008部署文档 注意事项: 如果你要安装的是64位的服务器,并且是新机器.那么请注意,你需要首先需要给64系统安装一个.net framework,如果已经安装此功能,请略过这一步.   具体安装.net framework的方法是:在图标<我的电脑>上右击选择<管理>,打开以后选择<功能>选项卡,如下图所示,然后点击添加功能,勾选..net framework,然后一直点击下一步安装即可. 安装的过程中,需要注意如果你要安装的服务器有外挂或者附加的

redis以及php的redis扩展安装部署

一.redis 安装部署: tar xf redis-3.2.8.tar.gz cd redis-3.2.8 make MANIFESTO=jemalloc make PREFIX=/usr/local/redis-3.2.8 install ln -s /usr/local/redis-3.2.8/ /usr/local/redis echo "export PATH=/usr/local/redis/bin:$PATH" >> /etc/profile find / -

ELK部署logstash安装部署及应用(二)

Logstash 安装部署注意事项: Logstash基本概念: logstash收集日志基本流程: input-->codec-->filter-->codec-->output input:从哪里收集日志. filter:发出去前进行过滤 output:输出至Elasticsearch或Redis消息队列 codec:输出至前台,方便边实践边测试 数据量不大日志按照月来进行收集 如果通过logstash来采集日志,那么每个客户端都需要安装logstash 安装需要前置系统环境

Zookeeper安装部署

Zookeeper安装部署 Zookeeper部署(单机模式)   下载ZooKeeper ü  http://zookeeper.apache.org/   解压 ü  tar -zxvf zookeeper-3.4.5.tar.gz   配置.在conf目录下创建一个配置文件zoo.cfg: tickTime=2000 dataDir=/home/hadoop/bigdata/zookeeper/datadataLogDir=/home/hadoop/bigdata/zookeeper/da

虚拟化Vmware之安装部署vCenter

vCenter是vSphere解决方案的基础物理架构核心,可以提供如访问控制.性能监控和配置功能等,并且可以将多台ESXi主机资源集中,使这些资源在整个数据中心的虚拟机之间共享.vCenter是一种服务,充当连接网络的ESXi主机的中心管理员. 安装部署vCenterer 一.实验环境 自己的真实机当作客户机 1.首先将DC/DNS(benet.com)服务器的防火墙关闭 2.真实机和虚拟机都设在同一网段 DNS指向DNS服务器. 安装高版本的flash 二.配置sql server    我在

安装部署Phxsql

.需求:公司某软件使用phxsql已经部署在3个机房,现需要在新的机房增加一个phxsql节点,以下为操作过程,因为保护隐私把4台IP用 1.1.1.1 2.2.2.2 3.3.3.3 新的ip为4.4.4.4 .安装Phxsql需要Python2.7版本,Centos默认为2.6版本,需要进行升级 cd /opt wget --no-check-certificate https://www.python.org/ftp/python/2.7.6/Python-2.7.6.tar.xz tar