CDH 6.0.1 集群 prepare 以及一些需要注意的地方

从这一篇文章开始会有三篇文章依次介绍集群搭建 「Before install」 「process」 「after install」

继上一篇使用 docker 部署单机 CDH 的文章,当我们使用 docker 评估完相关组件和一些功能之后,接下来就是使用 CDH express 版本来搭建集群。

搭建之前应该关注一下手册看下还有哪些可以注意的地方参见官方 before your install

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/installation_reqts.html#pre-install

看了一下5.x.x 的最后一个版本是 5.15.x 然后所带的组件如下:

Component Package Version Tarball Release Notes Changes File
Apache Avro avro-1.7.6+cdh5.15.1+140 Tarball Release notes Changes
Apache Crunch crunch-0.11.0+cdh5.15.1+104 Tarball Release notes Changes
Apache DataFu pig-udf-datafu-1.1.0+cdh5.15.1+27 Tarball Release notes Changes
Apache Flume flume-ng-1.6.0+cdh5.15.1+189 Tarball Release notes Changes
Apache Hadoop hadoop-2.6.0+cdh5.15.1+2822 Tarball Release notes Changes
Apache Hadoop MRv1 hadoop-0.20-mapreduce-2.6.0+cdh5.15.1+2822 (none) (none) (none)
Apache HBase hbase-1.2.0+cdh5.15.1+470 Tarball Release notes Changes
Apache HBase-Solr hbase-solr-1.5+cdh5.15.1+74 Tarball Release notes Changes
Apache Hive hive-1.1.0+cdh5.15.1+1395 Tarball Release notes Changes
Hue hue-3.9.0+cdh5.15.1+8420 Tarball Release notes Changes
Apache Impala impala-2.12.0+cdh5.15.1+0 (none) Release notes Changes
Kite SDK kite-1.0.0+cdh5.15.1+147 Tarball Release notes Changes
Apache Kudu kudu-1.7.0+cdh5.15.1+0 (none) Release notes Changes
Llama llama-1.0.0+cdh5.15.1+0 Tarball Release notes Changes
Apache Mahout mahout-0.9+cdh5.15.1+36 Tarball Release notes Changes
Apache Oozie oozie-4.1.0+cdh5.15.1+492 Tarball Release notes Changes
Apache Parquet parquet-1.5.0+cdh5.15.1+197 Tarball Release notes Changes
Parquet-format parquet-format-2.1.0+cdh5.15.1+20 Tarball Release notes Changes
Apache Pig pig-0.12.0+cdh5.15.1+114 Tarball Release notes Changes
Cloudera Search search-1.0.0+cdh5.15.1+0 Tarball Release notes Changes
Apache Sentry sentry-1.5.1+cdh5.15.1+458 Tarball Release notes Changes
Apache Solr solr-4.10.3+cdh5.15.1+529 Tarball Release notes Changes
Apache Spark spark-1.6.0+cdh5.15.1+569 Tarball Release notes Changes
Apache Sqoop sqoop-1.4.6+cdh5.15.1+136 Tarball Release notes Changes
Apache Sqoop2 sqoop2-1.99.5+cdh5.15.1+49 Tarball Release notes Changes
Apache Whirr whirr-0.9.0+cdh5.15.1+25 Tarball Release notes Changes
Apache ZooKeeper zookeeper-3.4.5+cdh5.15.1+149 Tarball Release notes Changes

这个图很容易看出即使是 5.x 的最新版本使用的 spark 的版本是 1.6.0,这个版本远远滞后了目前的社区 spark 发布的版本。如果要使用更新版本可能需要自己自行安装。

我们从 0 搭建当然愿意使用更新的稳定版本,所以采用 6.0.1 下面是 6.0.1 的一个软件包支持情况:

Component Component Version Changes Information
Apache Avro 1.8.2 Changes
Apache Flume 1.8.0 Changes
Apache Hadoop 3.0.0 Changes
Apache HBase 2.0.0 Changes
HBase Indexer 1.5 Changes
Apache Hive 2.1.1 Changes
Hue 4.2.0 Changes
Apache Impala 3.0.0 Changes
Apache Kafka 1.0.1 Changes
Kite SDK 1.0.0  
Apache Kudu 1.6.0 Changes
Apache Solr 7.0.0 Changes
Apache Oozie 5.0.0 Changes
Apache Parquet 1.9.0 Changes
Parquet-format 2.3.1 Changes
Apache Pig 0.17.0 Changes
Apache Sentry 2.0.0 Changes
Apache Spark 2.2.0 Changes
Apache Sqoop 1.4.7 Changes
Apache ZooKeeper 3.4.5 Changes

可以很容易看到两个关键地方的更新,一个是从 6.0.x 版本开始之后, hadoop 使用了 3.0.x 版本了。另外一个关键组件 spark 也从之前的 1.6.0 被升级到了 2.2.0。

包括 hadoop 版本和 spark 版本的变动,都可以前往官方网站获得更多的信息。

部署之前除了参看 before install 之外 ,可以仔细阅读一下 「Cloudera Enterprise Reference Architecture for Bare Metal Deployments」 这个文档。他会从物理机器配置,os 需求等部署相关的硬件问题,软件问题,操作系统问题,以及你想要的集群大小给出一些合理建议。

1. 比如推荐你使用 dns 而不要使用 hosts 文件来管理集群。

2. 比如推荐你关闭 iptables 来避免一些不必要的麻烦。

3. 比如推荐你开启 ntp 时间服务器,来同步 master 与各 node 之间的时间。

4. 比如给你硬盘划分资源提出一些合理建议

等等等.参看这个手册,寻找一些我们关心的问题变得很有必要。

关于大礼包吃资源的情况,另外一个文档列出了更详细的信息:

我们关心的 CM(cloudera manager) 吃资源的情况

Cloudera Manager Server Storage Requirements

Component Storage Notes
Partition hosting /usr 1 GB  
Cloudera Manager Database 5 GB If the Cloudera Manager Database shares a host with the Service Monitor and Host Monitor, more storage space is required to meet the requirements for those components.

Host Based Cloudera Manager Server Requirements

Number of Cluster Hosts Database Host Configuration Heap Size Logical Processors Cloudera Manager Server Storage Local Directory
Very small (≤10) Shared 2 GB 4 5 GB minimum
Small (≤20) Shared 4 GB 6 20 GB minimum
Medium (≤200) Dedicated 8 GB 6 200 GB minimum
Large (≤500) Dedicated 10 GB 8 500 GB minimum
Extra Large (>500) Dedicated 16 GB 16 1 TB minimum

可以看到,根据集群大小的不同有一些不同的参数推荐。文档下面还有大礼包里面包含所有组件在什么情况部署下 大概消费的资源的参考。但是最终消耗还是要看我们自己部署的机器数目和开启应用的数量还有我们使用的情况。这些资料可以提供一个合理的参考。

想要了解 CDH 的全局端口使用情况(包含所有的大礼包里面的服务)可以参照

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_ports_cm.html#cm_cn_ports

想要了解 CDH hosts 以及 master 应该如何分配,可以参照

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_host_allocations.html#host_role_assignments

如果想要了解一些自定义安装的详情,例如你不使用 CM 进行安装,想要安装一些老的组件可以参考

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_custom_installation.html

以上就是开始集群搭建之前需要了解的一些情况,在这里做一个简单的纪录。

Reference:

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/installation_reqts.html#pre-install  Before You Install

https://techvidvan.com/tutorials/hadoop-2-x-vs-hadoop-3-x/  20 Notable Difference Between Hadoop 2.x vs Hadoop 3.x

http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_metal.pdf

https://www.cloudera.com/documentation/enterprise/release-notes/topics/hardware_requirements_guide.html

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_ports_cm.html#cm_cn_ports  CDH 大礼包的端口使用详情(包含了所有的服务)

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_host_allocations.html#host_role_assignments  CDH 角色分配

https://www.cloudera.com/documentation/enterprise/6/6.0/topics/cm_ig_custom_installation.html  CDH 自定义安装的一些介绍

原文地址:https://www.cnblogs.com/piperck/p/9942686.html

时间: 2024-11-09 05:50:01

CDH 6.0.1 集群 prepare 以及一些需要注意的地方的相关文章

CDH 6.0.1 集群搭建 「After install」

集群搭建完成之后其实还有很多配置工作要做,这里我列举一些我去做的一些. 首先是去把 zk 的角色重新分配一下,不知道是不是我在配置的时候遗漏了什么在启动之后就有报警说目前只能检查到一个节点.去将 zk 角色调整到三个节点. 上一张目前的角色图 下面我将分别列出各应用的各个简写代表的意义: Hbase: M: Master | RS: RagionServer HDFS: B: Balance | DN: DataNode | FC: Failover Controller | JN: Journ

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章 cheungmine, 2014-10-25 0 引言 在生产环境上安装Hadoop高可用集群一直是一个须要极度耐心和体力的仔细工作. 虽然有非常多文档教会大家怎么一步一步去完毕这样的工作,可是百密也有一疏. 现成的工具不是没有,可是对于我这个喜欢了解细节的人来说,用别人的东西,写的好还能够,写的不好,出了问题,查找错误难之又难.手工安装Hadoop集群须要对Linux有一定的使用经验.对于全然没有接触Linux的人来说.肯定是

Redis3.0.7集群部署完整版

Redis3.0.7集群安装部署 Redis集群没有出来前,一直使用Codis集群,现在部署Redis集群看看效果如何. 一,架构 Centos6.5 64位 redis1 redis1:6379主 redis3:6380从 redis2 redis2:6379主 redis1:6380从 redis3 redis3:6379主 redis2:6380从 二,部署Redis实例 1,安装依赖 yum -y install tcl-devel 2,下载 wget http://download.r

Hadoop-1.0.4集群搭建笔记

这篇文章介绍的是简单的配置Hadoop集群的方法,适合实验和小型项目用,正式运行的集群需要用更正规的方法和更详细的参数配置,不适合使用这篇文章. 安装 JDK 在终端输入 $ java -version 如果有反应,说明已安装过jdk.如果显示的信息里出现了类似OpenJDK的字样,如 java version "1.6.0_20" OpenJDK Runtime Environment (IcedTea6 1.9.2) (6b20-1.9.2-0ubuntu1~10.04.1) Op

Redis 4.0.1集群搭建

Redis 4.0.1集群搭建 一.概述 Redis3.0版本之后支持Cluster. 1.1.redis cluster的现状 目前redis支持的cluster特性: 1):节点自动发现 2):slave->master 选举,集群容错 3):Hot resharding:在线分片 4):进群管理:cluster xxx 5):基于配置(nodes-port.conf)的集群管理 6):ASK 转向/MOVED 转向机制. 1.2.redis cluster 架构 1)redis-clust

apache2.2.25+tomcat7.0.47集群方案

因为公司项目在线人数的增加,随着现在硬件成本越来越低,大多数的生产环境内存大多都已经达到 16G,尤其最新的阿里云,客户的机器都是配置超高的java主机,但是Java的运行环境,内存使用有限 ,这样就造成了这台服务器资源的浪费,所以单机的多Tomcat集群就很有必要!当然有客户有多台服务器,这样更好了,配置会更少,性能会更强悍. 网上很多文章在说集群方案,很多配下来都是错的,也不说错误的原因,原本希望配置apache2.4+tomcat8的集群方案,配下来没成功,就配置apache2.2.25+

Centos7搭建redis5.0.5集群

Centos7搭建redis5.0.5集群 发表于 2019-09-06 | 分类于 Linux, Redis Redis是一个开源(BSD许可),内存数据结构存储,用作数据库,缓存和消息代理.它支持数据结构,如字符串,散列,列表,集合,带有范围查询的排序集,位图,超级日志,具有半径查询和流的地理空间索引.Redis具有内置复制,Lua脚本,LRU驱逐,事务和不同级别的磁盘持久性,并通过Redis Sentinel提供高可用性并使用Redis Cluster自动分区. 官网地址 一.集群方案比较

Sealos安装Kubernetes v1.16.0 HA集群

Sealos安装Kubernetes v1.16.0 HA集群 github项目链接https://github.com/fanux/sealos 初始化master节点与worker节点 初始化脚本 init.sh #!/bin/bash # 在 master 节点和 worker 节点都要执行 # 安装 docker # 参考文档如下 # https://docs.docker.com/install/linux/docker-ce/centos/ # https://docs.docker

Ansible自动化部署k8s-1.16.0版集群

Ansible自动化部署k8s二进制集群 Ansible是一种IT自动化工具.它可以配置系统,部署软件以及协调更高级的IT任务,例如持续部署,滚动更新.Ansible适用于管理企业IT基础设施. 这里我通过Ansible来实现Kubernetes v1.16 高可用集群自动部署(离线版) (但是还是需要网络,因为这里需要去部署flannel,coredns,ingress,dashboard插件,需要拉取镜像 Ansible自动化部署k8s-1.16.0版集群介绍 使用ansible自动化部署k