0030-如何在CDH中安装Kudu&Spark2&Kafka

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.概述

在CDH的默认安装包中,是不包含Kafka,Kudu和Spark2的,需要单独下载特定的Parcel包才能安装相应服务。本文档主要描述在离线环境下,在CentOS6.5操作系统上基于CDH5.12.1集群,使用Cloudera Manager通过Parcel包方式安装Kudu、Spark2和Kafka的过程。

  • 内容概括

    • Kudu安装
    • Spark2安装
    • Kafka安装
    • 服务验证
  • 测试环境
    • 操作系统版本:CentOS6.5
    • CM和CDH版本5.12.1
    • 使用CM管理员admin用户
    • 操作系统采用root用户操作
  • 前置条件
    • CDH集群运行正常

2.Kudu安装

CDH5.12.1打包集成Kudu1.4,并且Cloudera提供官方支持。不再需要安装Kudu的csd文件,安装完Kudu,Impala即可直接操作Kudu。

以下安装步骤描述如何使用Cloudera Manager来安装和部署Kudu1.4

2.1Kudu的Parcel部署

1.从Cloudera官网下载Kudu的Parcel包,下载地址如下

http://archive.cloudera.com/kudu/parcels/5.12.1/KUDU-1.4.0-1.cdh5.12.1.p0.10-el6.parcel
http://archive.cloudera.com/kudu/parcels/5.12.1/KUDU-1.4.0-1.cdh5.12.1.p0.10-el6.parcel.sha1
http://archive.cloudera.com/kudu/parcels/5.12.1/manifest.json

2.将以上3个文件下载到http服务所在服务器的/var/www/html/kudu1.4目录

[[email protected]~]# cd /var/www/html/
[[email protected] html]# mkdir kudu1.4
[[email protected] html]# cd kudu1.4/
[[email protected] kudu1.4]# ll
total 474140
-rw-r--r-- 1 rootroot 485506175 Aug 30 14:55 KUDU-1.4.0-1.cdh5.12.1.p0.10-el6.parcel
-rw-r--r-- 1 rootroot        41 Aug 30 14:55KUDU-1.4.0-1.cdh5.12.1.p0.10-el6.parcel.sha1
-rw-r--r-- 1 rootroot      2646 Aug 30 14:55 manifest.json
[[email protected] kudu1.4]# 

3.验证http是否能够正常访问

2.2安装Kudu服务

1.通过CM界面配置Kudu的Parcel地址,并下载,分发,激活Kudu。

已分配激活

2.回到CM主页,添加Kudu服务

选择Kudu服务,点击“继续”

选择Master和Tablet Server,点击“继续”

配置相应的目录,注:无论是Master还是Tablet根据实际情况,数据目录(fs_data_dir)应该都可能有多个,以提高并发读写,从而提高Kudu性能。

启动Kudu服务

安装完毕

2.3配置Impala

从CDH5.10开始,安装完Kudu后,默认Impala即可直接操作Kudu进行SQL操作,但为了省去每次建表都需要在TBLPROPERTIES中添加kudu_master_addresses属性,建议在Impala的高级配置项中设置KuduMaster的地址和端口:--kudu_master_hosts=ip-172-31-6-148.fayson.com:7051

多个master可以以“,”分割如:

--kudu_master_hosts=ip-172-31-6-148.fayson.com:7051,ip-172-31-6-148.fayson.com:7051

3.Spark2安装

集群的jdk版本为jdk1.7.0_67,从Spark2.2.0版本后不再支持Java7、Python2.6和Hadoop2.6.5之前的版本,所以此处选择Spark 2.1.0版本部署。

3.1安装csd文件

1.下载csd文件,下载地址如下:

http://archive.cloudera.com/spark2/csd/SPARK2_ON_YARN-2.1.0.cloudera1.jar

2.将csd文件移动至/opt/cloudera/csd目录下

[[email protected]]# pwd
/opt/cloudera/csd
[[email protected] csd]#ll
total 16
-rw-r--r-- 1 rootroot 16109 Mar 29 06:58 SPARK2_ON_YARN-2.1.0.cloudera1.jar
[[email protected] csd]# 

如果csd目录不存在,则创建

[[email protected]]# mkdir csd
[[email protected] cloudera]# chown cloudera-scm:cloudera-scm csd/

3.重启Cloudera Manager服务

[[email protected]~]# service cloudera-scm-serverrestart
Stopping cloudera-scm-server:                              [  OK  ]
Starting cloudera-scm-server:                              [  OK  ]
[[email protected] ~]# 

3.2Spark2的Parcel部署

1.下载Spark2的Parcel包,下载地址如下

http://archive.cloudera.com/spark2/parcels/2.1.0/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel
http://archive.cloudera.com/spark2/parcels/2.1.0/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel.sha1
http://archive.cloudera.com/spark2/parcels/2.1.0/manifest.json

2.将上述3个文件下载至/var/www/html/spark2.1.0目录下

[[email protected]]# cd /var/www/html/
[[email protected] html]# mkdir spark2.1.0
[[email protected] html]# cd spark2.1.0/
[[email protected] spark2.1.0]# ll
total 173052
-rw-r--r-- 1 rootroot      4677 Mar 29 06:58 manifest.json
-rw-r--r-- 1 rootroot 177185276 Mar 29 06:58 SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel
-rw-r--r-- 1 rootroot        41 Mar 29 06:58SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el6.parcel.sha1
[[email protected] spark2.1.0]# 

3.验证是否部署成功

3.3安装Spark2

1.通过CM管理界面配置Spark2的Parcel地址并保存

2.点击下载、分配并激活

3.回到CM主页,添加Spark2

4.选择Spark2,点击“继续”

5.为新的Spark2选择一组依赖,点击“继续”

6.选择History Server和Gateway节点,点击“继续”

7.启动Spark2服务,服务启动完成后,点击“继续”

8.Spark2安装完成

4.Kafka安装

4.1Kafka版本选择

Kafka版本 版本特性 最低支持CM版本 支持CDH版本 是否集成到CDH
2.2.x ? Cloudera Manager 5.9.x CDH 5.9.x and higher
2.1.x Sentry authorization Cloudera Manager 5.9.x CDH 5.9.x and higher
2.0.x Enhanced security Cloudera Manager 5.5.3 CDH 5.4.x and higher
1.4.x Distributed both as package and parcel Cloudera Manager 5.2.x CDH 5.4.x, 5.5.x, 5.6.x
1.3.x Includes Kafka Monitoring Cloudera Manager 5.2.x CDH 5.4.x, 5.5.x, 5.6.x
1.2.x ? Cloudera Manager 5.2.x CDH 5.4.x, 5.5.x, 5.6.x

参考官网:https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn\_consolidated\_pcm.html#pcm\_kafka

4.2Kafka的Parcel部署

1.从Cloudera官网下载Kafka的Parcel包,下载地址如下

http://archive.cloudera.com/kafka/parcels/2.1.1.18/KAFKA-2.1.1-1.2.1.1.p0.18-el6.parcel
http://archive.cloudera.com/kafka/parcels/2.1.1.18/KAFKA-2.1.1-1.2.1.1.p0.18-el6.parcel.sha1
http://archive.cloudera.com/kafka/parcels/2.1.1.18/manifest.json

2.将上述3个文件下载至/var/www/html/kafka2.1.1.18目录下

[[email protected]]# cd /var/www/html/
[[email protected] html]# mkdir kafka2.1.1.18
[[email protected] html]# cd kafka2.1.1.18/
[[email protected] kafka2.1.1.18]# ll
total 66536
-rw-r--r-- 1 rootroot 68116503 Mar 27 17:39 KAFKA-2.1.1-1.2.1.1.p0.18-el6.parcel
-rw-r--r-- 1 rootroot       41 Mar 27 17:39KAFKA-2.1.1-1.2.1.1.p0.18-el6.parcel.sha1
-rw-r--r-- 1 rootroot     5252 Mar 27 17:40 manifest.json
[[email protected] kafka2.1.1.18]# 

3.验证是否部署成功

4.3安装Kafka服务

1.通过CM配置Kafka的Parcel包地址并保存

2.点击下载、分配并激活

3.回到CM主页,添加Kafka服务

4.选择Kafka服务,点击“继续”

5.为Kafka选择一组依赖关系,点击“继续”

6.选择Kafka Broker和Gateway,点击“继续”

7.根据集群环境修改Kafka配置,点击“继续”

8.Kafka安装完成

9.修改Kafka Broker的heap大小,默认为50M,可能会导致Kafka启动失败

保存配置,重新部署客户端并重启相应服务。

5.服务验证

5.1Kudu验证

建表语句如下:

CREATE TABLE my_first_table(
    id BIGINT,
    name STRING,
 PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;

通过Impala-shell创建Kudu表

[[email protected]]$ impala-shell -iip-172-31-10-118.fayson.com
...
[ip-172-31-10-118.fayson.com:21000] > show tables;
Query: show tables
+------------+
| name       |
+------------+
| test       |
| test_table |
+------------+
Fetched 2 row(s) in 0.06s
[ip-172-31-10-118.fayson.com:21000] > CREATE TABLEmy_first_table(
 >     id BIGINT,
 >     name STRING,
 >    PRIMARY KEY(id)
 > )
 >PARTITION BY HASH PARTITIONS 16
 > STORED AS KUDU;
Query: create TABLE my_first_table(
    id BIGINT,
    name STRING,
 PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU

Fetched 0 row(s) in 2.43s
[ip-172-31-10-118.fayson.com:21000] >

插入数据并查询

[ip-172-31-10-118.fayson.com:21000]> insert into my_first_table values(1,‘fayson‘);
Query: insert into my_first_table values(1,‘fayson‘)
...
Modified 1 row(s), 0 row error(s) in 3.92s
[ip-172-31-10-118.fayson.com:21000] >select * from my_first_table;
...
+----+--------+
| id | name   |
+----+--------+
| 1  | fayson |
+----+--------+
Fetched 1 row(s) in 1.02s
[ip-172-31-10-118.fayson.com:21000] > 

通过Kudu Master Web UI查看

5.2Spark2验证

[[email protected]~]# spark2-shell
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). ForSparkR, use setLogLevel(newLevel).
17/09/11 09:46:22 WARN spark.SparkContext: Support for Java 7 is deprecated as of Spark 2.0.0
Spark context Web UI available at http://172.31.6.148:4040
Spark context available as ‘sc‘ (master = yarn, app id =application_1505121236974_0001).
Spark session available as ‘spark‘.
Welcome to
 ____              __
 / __/__ ___ _____/ /__
    _\ \/ _ \/ _ `/__/  ‘_/
 /___/ .__/\_,_/_//_/\_\   version 2.1.0.cloudera1
 /_/

Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_67)
Type in expressions tohave them evaluated.
Type :help for more information.

scala> var textFile=sc.textFile("/fayson/test/a.txt")
textFile: org.apache.spark.rdd.RDD[String] =/fayson/test/a.txt MapPartitionsRDD[1] at textFile at <console>:24

scala> textFile.count()
res0: Long = 3

scala> 

5.3Kafka验证

1.创建一个test的topic

[[email protected]]# kafka-topics --create--zookeeper ip-172-31-6-148.fayson.com:2181 --replication-factor 3 --partitions1 --topic test

2.向topic发送消息

[[email protected]]# kafka-console-producer--broker-list ip-172-31-10-118.fayson.com:9092 --topic test

3.消费topic的消息

[[email protected]]# kafka-console-consumer --zookeeperip-172-31-6-148.fayson.com:2181 --topic test --from-beginning

4.查看topic描述信息

[[email protected]]# kafka-topics --describe--zookeeper ip-172-31-6-148.fayson.com:2181 --topic test

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。


原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文地址:http://blog.51cto.com/14049791/2319268

时间: 2024-10-29 13:13:38

0030-如何在CDH中安装Kudu&Spark2&Kafka的相关文章

如何在eclipse中安装Jess

如何在eclipse中安装Jess 浏览:49 | 更新:2014-05-12 16:39 这个文章帮了不少忙,感谢! 但经我实践,还要把插件那些文件向/dropins/sdk下也放一份,才能成功. 1.在Jess官方网站下载jess安装文件,最新版本为jess 7.0试用期为30天. 2.下载解压后文件夹名称为Jess71p2,点开eclipse文件夹 3.里面有五个zip文件,全选解压后生成两个文件夹features,plugins 4.features中有一个文件夹,pligins中有四个

如何在Eclipse中安装PDT插件来开发PHP

之前查过很多PDT的安装方法,60%都是让人直接安装All-in-one的PHP eclipse版本,纯属让人无语,而有些给出的PDT安装链接无法正确下载插件,对此,给出了我安装过的PDT插件下载地址:http://download.eclipse.org/tools/pdt/updates/3.3/ 安装方法: 1. 点击 help-> install new software 2. 在 work with 输入框里复制上面地址,然后在下面的 name 显示框中选择第一种插件:PHP Deve

如何在ubuntu中安装php

如何在ubuntu中安装php 情衅 | 浏览 692 次 发布于2016-05-07 12:36 最佳答案 关于Ubuntu下的LAMP配置步骤: 首先要安装LAMP 就是Apache,PHP5,Mysql5. 打开终端,输入命令行.1.安装 Apache 1.打开终端 2. 输入以下命令 sudo apt-get install apache2 3. 如果没有sudo 权限,需要输入密码.2.测试 Apache 为了确定安装是否成功,测试一下. 1. 打开浏览器,输入以下网址 http://

如何在VPC中安装Ubuntu

在虚拟机 VPC2007 中安装Ubuntu 方法A:(断网络连接) 1.用载入ISO镜像启动一台标准的 xp设置的虚拟机 2.按 F4 选择启动模式,选择图形模式并确认. 3.按 F6 在启动配置中,末尾加上参数“noreplace-paravirt”(不含引号). 4.选择 第一项Try Ubuntu...,不要在此选择第2项安装 Ubuntu. 接下来,你需要通过 Ubuntu 的 Live Demo 模式安装 Ubuntu 到你的 VPC 中,这里就不多作介绍了.当安装结束时,你需要 r

如何在ubuntu中安装英汉词典——ubuntu 小技巧3

如何在ubuntu中安装英汉词典 对于英语能力欠缺或经常遇见生僻词汇的人而言,在PC上安装一英汉词典是很有必要的,而linux系统中没有有道.金山词霸等经典词典工具可供使用,也没有那么多容易安装的词典可供选择,因此能够安装一个词典并且可以扩充词汇是相当有利于我们工作的!下面简单说一下如何安装词典,并且向其扩充词汇! 操作方面依然使用最简单的方法--ubuntuSoftware Center 下载并且安装StarDict,如下图: 首先, 在search 栏输入 StarDict的部分或全部单词,

如何在 Linux 中安装微软的 .NET Core SDK | Linux 中国

本分步操作指南文章解释了如何在 Linux 中安装 .NET Core SDK 以及如何使用 .NET 开发出第一个应用程序.-- Sk致谢译自 | ostechnix.com 作者 | Sk译者 | LCTT / runningwater .NET Core 是微软提供的免费.跨平台和开源的开发框架,可以构建桌面应用程序.移动端应用程序.网络应用程序.物联网应用程序和游戏应用程序等.如果你是 Windows 平台下的 dotnet 开发人员的话,使用 .NET core 可以很轻松就设置好任何

如何在Win10中安装RSAT对AD进行日常管理?

如何在Win10中安装RSAT以对AD进行日常管理? ?Lander Zhang 专注外企按需IT基础架构运维服务,IT Helpdesk 实战培训践行者博客:https://blog.51cto.com/lander IT Helpdesk 工程师实战培训课程:https://edu.51cto.com/lecturer/733218.html轻松进外企:IT Helpdesk工程师实战自学之路:https://blog.51cto.com/lander/2413018更新时间:2019/10

CentOS7安装CDH 第九章:CDH中安装Kafka

相关文章链接 1. CDH官网Kafka的安装教程网址 https://www.cloudera.com/documentation/kafka/latest/topics/kafka_installing.html#concept_m2t_d45_4r 2. 下载对应的Kafka版本 1.查看CDH和Kafka的版本对应列表: 查看网址:https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_conso

如何在win10中安装ArcGIS10.2

在win10中安装ArcGIS10.2,完美兼容,下面将自己在win10界面下的安装方法给大家分享一下. 工具/原料 win10环境 ArcGIS10.2安装包, 安装包地址链接: 链接: http://pan.baidu.com/s/1o84f8OM 方法/步骤 1 在安装包的文件夹内进入license Manager文件夹,进入选择名为“setup”的文件开始安装. 2 接下来就开始安装了,跟着提示,点击Next,选择接受,再点Next, 3 然后选择文件的安装路径,选择自己觉得合适位置安装