CDH搭建和集成spark、kafka操作

包下载:

由于是离线部署,因此需要预先下载好需要的文件。
需要准备的文件有:

Cloudera Manager 5
文件名: cloudera-manager-centos7-cm5.14.0_x86_64.tar.gz
下载地址: https://archive.cloudera.com/cm5/cm/5/
CDH安装包(Parecls包)
版本号必须与Cloudera Manager相对应
下载地址: https://archive.cloudera.com/cdh5/parcels/5.14.0/
需要下载下面3个文件:
CDH-5.14.0-1.cdh5.14.0.p0.23-el7.parcel
CDH-5.14.0-1.cdh5.14.0.p0.23-el7.parcel.sha1
manifest.json
MySQL jdbc驱动
文件名: mysql-connector-java-.tar.gz
下载地址: https://dev.mysql.com/downloads/connector/j/
解压出: mysql-connector-java-bin.jar

步骤:

所有节点上传cloudera-manager-centos7-cm5.14.0_x86_64.tar.gz文件并解压
# tar -zxvf cloudera-manager-centos7-cm5.14.0_x86_64.tar.gz -C /opt
所有节点手动创建文件夹
# mkdir /opt/cm-5.14.0/run/cloudera-scm-agent
所有节点创建cloudera-scm用户
# useradd --system --home=/opt/cm-5.14.0/run/cloudera-scm-server --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm
初始化数据库(只需要在Cloudera Manager Server节点执行)
首先需要将mysql jdbc驱动放入相应位置:
# cp /path/to/mysql-connector-java-5.1.42-bin.jar /opt/cm-5.14.0/share/cmf/lib/
然后执行命令:
# /opt/cm-5.14.0/share/cmf/schema/scm_prepare_database.sh mysql -h df2 -uroot -proot --scm-host df1 scm scm scm
脚本参数说明:
${数据库类型} -h ${数据库所在节点ip/hostname} -u${数据库用户名} -p${数据库密码} –scm-host ${Cloudera Manager Server节点ip/hostname} scm scm scm
提示下面这个说明执行成功:
All done, your SCM database is configured correctly!
所有节点修改Agent配置
# vim /opt/cm-5.14.0/etc/cloudera-scm-agent/config.ini
将其中的server_host参数修改为Cloudera Manager Server节点的主机名
将如下文件放到Server节点的/opt/cloudera/parcel-repo/目录中:
CDH-5.14.0-1.cdh5.14.0.p0.23-el7.parcel
CDH-5.14.0-1.cdh5.14.0.p0.23-el7.parcel.sha1
manifest.json
重命名sha1文件
# mv CDH-5.14.0-1.cdh5.14.0.p0.23-el7.parcel.sha1 CDH-5.14.0-1.cdh5.14.0.p0.23-el7.parcel.sha
所有节点更改cm相关文件夹的用户及用户组
# chown -R cloudera-scm:cloudera-scm /opt/cloudera
# chown -R cloudera-scm:cloudera-scm /opt/cm-5.14.0
启动Cloudera Manager
Server节点:
# /opt/cm-5.14.0/etc/init.d/cloudera-scm-server start
# /opt/cm-5.14.0/etc/init.d/cloudera-scm-agent start
其它节点:
# /opt/cm-5.14.0/etc/init.d/cloudera-scm-agent start

集成spark

CDH版本是5.14.0

spark安装版本是:2.1.0

包下载:

CSD包下载 http://archive.cloudera.com/spark2/csd/

parcel包下载 http://archive.cloudera.com/spark2/parcels/

安装spark2

在所有节点进行下面操作
上传CSD包到机器的/opt/cloudera/csd目录。注意如果本目录下有其他的jar包,把删掉或者移到其他目录
修改SPARK_ON_YARN-2.2.0.cloudera1.jar的用户和组
chown cloudera-scm:cloudera-scm SPARK_ON_YARN-2.1.0.cloudera1.jar
将parcel包上传到机器的/opt/cloudera/parcel-repo目录。注意: 如果有其他的安装包,不用删除 ,但是如果本目录下有其他的重名文件比如manifest.json文件,把它重命名备份掉。然后把那3个parcel包的文件放在这里。
停掉CM和集群,现在将他们停掉。然后运行命令
 service cloudera-scm-agent restart
 service cloudera-scm-server restart

把CM和集群启动起来。然后点击主机->Parcel页面,看是否多了个spark2的选项。如下图,你这里此时应该是分配按钮,点击,等待操作完成后,点击激活按钮

还要注意的是:在spark historyserver这台机器上,创建本队文件夹路径,并赋予权限,不然你的sparkhistory是启动不了的

[[email protected] csd]# mkdir -p /user/spark/spark2ApplicationHistory
[[email protected] csd]# chown -R spark:spark /user/spark

激活后,点击你的群集-》添加服务,添加spark2服务。注意,如果你这里看不到spark2服务,就请检查你的CSD包和parcel包是否对应,上面的步骤是否有漏掉。正常情况下,应该是能用了。

原文地址:https://www.cnblogs.com/niutao/p/10831190.html

时间: 2024-11-06 21:59:47

CDH搭建和集成spark、kafka操作的相关文章

CDH集群集成kafka

搭建要求: 1.CDH环境已经搭建成功,在CDH上搭建kafka,要求用CDH上zookeeper管理kafka而不用kafka自带的zookeeper 2.kafka_2.11-0.8.2.1.tgz已经上传到kafka集群环境中 搭建步骤 1. 主机操作 修改hosts 10.10.0.11 s1-1 10.10.0.12 s1-2 10.10.0.13 s1-3 10.10.0.14 s1-4 10.10.0.15 s2-1 10.10.0.16 s2-2 10.10.0.17 s2-3

0030-如何在CDH中安装Kudu&Spark2&Kafka

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看. 1.概述 在CDH的默认安装包中,是不包含Kafka,Kudu和Spark2的,需要单独下载特定的Parcel包才能安装相应服务.本文档主要描述在离线环境下,在CentOS6.5操作系统上基于CDH5.12.1集群,使用Cloudera Manager通过Parcel包方式安装Kudu.Spark2和Kafka的过程. 内容概括 Kudu安装 Spark2安装 Kafka安装 服务验证 测试环境 操作系统版本:CentOS6.5 C

使用IntelliJ IDEA 13搭建Android集成开发环境(图文教程)

原文:使用IntelliJ IDEA 13搭建Android集成开发环境(图文教程) ?[声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/4013535.html 联系方式:[email protected] [正文] [开发环境] 物理机版本:Win 7旗舰版(32位) Java SDK版本:jdk1.8.0_20(32位) Android SDK

用MSBuild和Jenkins搭建持续集成环境(2)

http://www.infoq.com/cn/articles/MSBuild-2 作者 Mustafa Saeed Haji Ali ,译者 李剑 发布于 2012年10月23日 | 注意: 挥一挥衣袖,带走满满干货,关注活动大本营,时不时发福利呦!3 讨论 分享到:微博微信FacebookTwitter有道云笔记邮件分享 稍后阅读 我的阅读清单 这是持续集成系列的下半部分,如果你还没看过上半部分的话,请点击这里:用MSBuild和Jenkins搭建持续集成环境(1). 与Jenkins相会

使用Android Studio搭建Android集成开发环境(图文教程)

?[声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/4022844.html 联系方式:[email protected] [正文] 之前本人在博客中讲到使用IntelliJ IDEA 13搭建Android集成开发环境(图文教程).昨天重装系统了,所以为了跟上时代,今天来试一下Android Studio的使用.之前看过几篇博客,介绍了如何使用An

[转] 基于Gitlab CI搭建持续集成环境

[From] https://blog.csdn.net/wGL3k77y9fR1k61T1aS/article/details/78798577 前言 本文是在12月12号迅雷@赵兵在前端早读课第三期Live中提到的关于CI构建的,可能这部分在不同公司由不同的岗位负责,刚好如果你没遇到你可以看看. @赵兵,来自迅雷前端团队.是一个热爱前端技术,喜欢造轮子,爱折腾的人,也是一个奉行"懒惰使人进步"的懒人工程师. 正文从这开始- 本文简单介绍了持续集成的概念并着重介绍了如何基于 Gitl

大数据平台CDH搭建学习(5.10.0)

又是一个周末,本来是已经打开wegame,更新一下许久未碰的lol,后来实在等不下去了,还是想想写写博客,正好最近也在学习CDH:刚刚就像女生买东西一样,毫不犹豫地买了3个云主机,好了,废话不多说,下面我们正式开始CDH搭建大数据平台. 一.Hadoop是什么? Hadoop是一个分布式系统架构,由Apache基金会开发.用户可以在不理解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储. 不足之处:①版本管理混乱 ②部署过程繁琐,升级过程复杂 ③兼容性差 ④安全性低 二.

Android开发新手学习总结(一)——使用Android Studio搭建Android集成开发环境

[新手连载]一:使用Android Studio搭建Android集成开发环境http://bbs.itcast.cn/forum.php?mod=viewthread&tid=87055&fromuid=150705 (出处: 传智播客论坛_传智播客旗下社区) 一.Android Studio简单介绍 2013年GoogleI/O大会首次发布了Android Studio IDE(Android平台集成开发环境).它基于Intellij IDEA开发环境,旨在取代Eclipse和ADT(

jenkins + Git 搭建持续集成环境

jenkins + Git 搭建持续集成环境 持续集成通过自动化构建.自动化测试以及自动化部署加上较高的集成频率保证了开发系统中的问题能迅速被发现和修复,降低了集成失败的风险,使得系统在开发中始终保持在一个稳定健康的集成状态.jenkins是目前广泛应用的持续集成工具,本文记录我使用jenkins+Git配置持续集成环境的整个流程以及踩到的坑(jenkins过程的坑往往不是在第一次配置,而是在配置结束后更改某些配置项的时候踩到). 总体流程如下: tomcat8.0下载地址:http://tom