k8s与docker与大数据环境的构建工作

大数据环境与docker

在使用CDH构建在k8s上的时候遇到了异常困难的问题,其检查机制会将解析主机的IP作为目标容器的IP,导致两者无法正常安装部署,只能放弃已经做好的容器镜像,之后在不断的寻找中终于到了可以达到预期目标的方法。

首先是找到了Spark的两个容器镜像:

    https://hub.docker.com/r/bde2020/spark-master
    https://hub.docker.com/r/gettyimages/spark

其中big-data-europe/docker-spark已经可以直接部署在k8s上面,但我们想要构建大数据的环境仅仅有spark是不足的,但深入了解后,发现big-data-europe中已经有许多已经被制作好的容器,仅需组合就可以很方便的使用。

使用方法在页面也很详细,构建文件也在github中,只需要对几个脚本文件进行了解,即可清楚整体的构建流程,也能很方便的组合自己的环境。其中所有镜像在https://hub.docker.com/u/bde2020。

大数据组件的融合

我组合环境的时候使用的是gettyimages/docker-spark与big-data-europe的Hadoop、Hive、HBase,其次还自己做了一个包含Sqoop工具的datanode节点。

这套构建方法目前来看已经已经可以承担目标预期的任务,在构建过程中也遇到了很多障碍:

1. 其中spark镜像中包含的jars包远比标准版本的要少,需要手动放入hive等包,为了避免缺少,需要将相应版本的jar包全部放入;
2. 版本问题,各组件之间的版本需要匹配;
3. spark中的spark的conf目录可以与hive的hive-site.xml建立联系,方便互通,同时也需要做一些调整;
4. env文件仅需合并,并调整方可。

大数据环境从docker到k8s

然后是从docker-compose文件开始构建k8s文件,这个主要是在同事的帮助下,需要注意以下几个问题:

    1. 服务需要将几个关键镜像添加NodePort,端口开放足够
    2. 创建容器的顺序问题,开启的顺序差异将导致容器是否能正常启动,如果启动失败,一般rc也将自动重新创建容器,如果还不行则需要手动删除,rc会自动重构。

原文地址:https://www.cnblogs.com/finalnarcissus/p/11718627.html

时间: 2024-10-10 08:43:00

k8s与docker与大数据环境的构建工作的相关文章

基于k8s、docker、jenkins构建springboot服务

Jenkins + github + docker + k8s + springboot 本文介绍基于k8s.docker.jenkins.springboot构建docker服务. 环境准备 server-1 k8s-master Centos7 ip地址10.12.5.110 server-2 k8s-node Centos7 ip地址10.12.5.115 两台服务执行如下命令 $ setenforce 0 $ systemctl stop firewalld $ systemctl di

Kubernetes(k8s)集群部署(k8s企业级Docker容器集群管理)系列之部署master/node节点组件(四)

0.前言 整体架构目录:ASP.NET Core分布式项目实战-目录 k8s架构目录:Kubernetes(k8s)集群部署(k8s企业级Docker容器集群管理)系列目录 1.部署master组件 master 服务器的组件有:kube-apiserver.kube-controller-manager.kube-scheduler 因此需要下载k8s master,下载地址:https://github.com/kubernetes/kubernetes/blob/master/CHANGE

windows下用Eclipse连接大数据环境得hbase

1.解压hbase安装包 2.将大数据环境得hadoop安装包拷贝到windows(这里以d:/hadoop为例) 3.打开C:\Windows\System32\drivers\etc目录下的hosts并添加如下代码 127.0.0.1 localhost192.168.48.134 master192.168.48.133 slaver 注:这里你配置了几台服务器就写几台,这里我只配置192.168.48.134 master和192.168.48.133 slaver两台 4.使用Ecli

XFS:大数据环境下Linux文件系统的未来?

XFS:大数据环境下Linux文件系统的未来? XFS开发者Dave Chinner近日声称,他认为更多的用户应当考虑XFS.XFS经常被认为是适合拥有海量数据的用户的文件系统,在空间分配方面的可扩展性要比ext4快“几个数量级”. “元数据验证”意味着,让元数据自我描述,保护文件系统,防范被存储层指错方向的写入.那么,为什么我们仍需要ext4? AD:WOT2015 互联网运维与开发者大会 热销抢票 [51CTO 2月7日外电头条]Linux有好多种件系统,但往往最受关注的是其中两种:ext4

Docker容器学习梳理-Dockerfile构建镜像

在Docker的运用中,从下载镜像,启动容器,在容器中输入命令来运行程序,这些命令都是手工一条条往里输入的,无法重复利用,而且效率很低.所以就需要一 种文件或脚本,我们把想执行的操作以命令的方式写入其中,然后让docker读取并分析.执行,那么重复构建.更新将变得很方便,所以Dockerfile就此诞生了.Docker提供了Dockerfile作为构建Docker镜像脚本,避免人们一行一行的输入,真是善莫大焉.Dockerfile脚本可以做到随时维护修改,即可以分享,更有利于在模板化,更不用说传

docker使用之私有仓库构建(四)

docker使用之私有仓库构建 1.docker registry 镜像下载 docker search registry #搜索镜像 docker pull registry #下载镜像 2.启动registry 原文地址:https://www.cnblogs.com/xu743876685/p/8586331.html

# 大小型网络构建-BGP加实验验证

大小型网络构建-BGP加实验验证 BGP -定义-概述-原理#建立邻居表#同步数据库 :network {精确的路由条目}import-route {protocol}BGP数据库中每个条目的状态,必须是: , 表示的是"best -- 最好的".1.尝试着放入自己的路由表:2.发送给自己的 BGP 邻居:#计算路由表 -报文 open :包含BGP建立邻居时需要协商的参数update:包含的是 BGP 路由条目 keep-alive : 用于周期性的发送,维护邻居关系:notific

大数据环境下,我们被卖了一次又一次

大数据,人工智能是当下互联网最热门的话题. 抛开大数据的人工智能都是耍流氓,人工智能需要大数据作为基础支持. 大数据是1980年,著名未来学家阿尔文·托夫勒便在<第三次浪潮>一书中,将大数据热情地赞颂为"第三次浪潮的华彩乐章".大约从2009年开始,"大数据"成为互联网信息技术行业的流行词汇. 什么是大数据? 大数据,或称巨量数据.海量数据;是由数量巨大.结构复杂.类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用

Kafka在大数据环境中的应用

我们生活在一个数据爆炸的时代,数据的巨量增长给我们的业务处理带来了压力,同时巨量的数据也给我们带来了十分可观的财富.随着大数据将各个行业用户.运营商.服务商的数据整合进大数据环境,或用户取用大数据环境中海量的数据,业务平台间的消息处理将变得尤为复杂.如何高效地采集.使用数据,如何减轻各业务系统的压力,也变得越来越突出.在早期的系统实现时,业务比较简单.即便是数据量.业务量比较大,大数据环境也能做出处理.但是随着接入的系统增多,数据量.业务量增大,大数据环境.业务系统都可出现一定的瓶颈.下面我们看