K8S生产环境中实践高可靠的配置和技巧都有哪些?

K8S环境中实践高可靠的配置和技巧都有哪些?

磁盘类型及大小

磁盘类型:

  • 推荐使用ssd 磁盘
  • 对于worker节点,创建集群时推荐使用挂载数据盘。这个盘是专门给/var/lib/docker 存放本地镜像。可以避免后续因镜像太多而造成磁盘根目录容量不够的情况。在运行一段时间后,本地会存在很多无用的镜像。比较快捷的方式就是,先下线这台机器,重新构建这个磁盘,然后再上线。

磁盘大小:
kubernetes节点需要的磁盘空间也不小,Docker镜像、系统日志、应用日志都保存在磁盘上。创建kubernetes集群的时候,要考虑每个节点上要部署的pod数量,每个pod的日志大小、镜像大小、临时数据,再加上系统预留的值。
kubernetes集群中操作系统占用3G左右的磁盘空间,建议预留8G左右的磁盘空间。剩余空间考虑到给kubernetes资源对象使用。

是否立即构建worker节点

  1. 构建节点考虑初始节点数量和后续增加的节点和证书问题。

网络选择

  1. 如果需要连接外部的一些服务,如rds等,则需要考虑复用原有的VPC,而不是创建一个新的VPC。因为VPC间是隔离的,您可以创建一个新的交换机,把kubernetes的机器都放在这个交换机网络下,从而便于管理。
  2. 在kubernetes集群创建时,需要选定好网络插件,后续如果需要更新网络插件,或多或少都会对生产业务造成一定影响。当前主流的网络插件有:calico、flannel和terway(阿里云)
  3. pod网络cidr不能设置太小,如果太小,可以支持的节点数量就会受限。这个值的设置需要和pod节点数量综合考虑。例如:pod网络cidr的网段是/16,那么就会256*256个地址,如果每个节点数量是128,则最多可以支持512个节点。

使用多可用区

  1. 阿里云支持多地域,每个地域下面又有不同的可用区。可用区是指在同一个地域内,店里和网络互相地理的物理区域。多可用区能够实现跨区域的容灾能力。同时也会带来额外的网络时延。创建kubernetes集群时,您可以选择创建多可用区kubernetes集群。其实对于裸机部署来讲,跨机房网络只要3层可达既可以。

声明每个pod的resource

在使用kubernetes集群时,经常会遇到:在一个节点上调度了太多的pod,导致节点负载太高,没法正常对外提供服务的问题。
为避免上述问题,在kubernetes中部署pod时,您可以指定pod需要的request及limit的资源,kubernetes在部署这个pod时,就会根据pod的需求找到一个具有充足空闲资源的节点部署这个pod。下面例子中就声明了nginx这个pod需要1核CPU,1024M内存,运行实际应用不能超过2核CPU和4096MB内存。
apiVersion: v1 kind: Pod metadata: name: nginx spec: containers: - name: nginx image: nginx resources: # 资源声明 requests: memory: "1024Mi" cpu: "1000m" limits: memory: "4096Mi" cpu: "2000m"
kubernetes采用静态资源调度方式,对于每个节点上的剩余资源,是这样计算的:节点剩余资源=节点总资源-已经分配出去的资源,并不是实际使用的资源。如果您自己手动裕兴一个很耗资源的程序,kubernetes并不能感知到。
另外所有的pod上都要声明resource。对于没有声明resource的pod,它被调度到某个节点后,kubernetes也不会在对应的节点上扣掉这个pod使用的资源。可能会导致节点上调度过去的太多的pod。

日志和监控方向

  1. 需要提前测试好是否配置elkF集群来实现日志的监控,实现之后对于每个pod的日志的存储和采集,需要提前配置(包括动态新增pod和动态新增节点时是否能够自动采集日志和存储日志)。
  2. 需要提前测试prometheus监控和grafana图形展示(动态新增pod节点监控和node监控)。

启动时等待下游服务,不要直接退出

游戏应用可能会有一些外部依赖,例如需要从数据库(DB)读取数据或者依赖另一个服务的接口。应用启动的时候,外部依赖尾部都能满足。手工运维的时候,通常采用依赖不满足立即退出的方式,也就是所谓的failfast,但是在kubernetes中,这种策略不再适用。原因在于kubernetes中多数运维操作是自动的,不需要人工接入,例如部署应用,您不用自己选择节点,再到节点上启动应用,应用fail,不用手动重启,kubernetes会自动重启应用。负载增高,还可以通过HPA自动扩容。
针对启动时依赖不满足这个场景,假设有两个应用A和B,A依赖B,对A来说就是依赖不满足。如果A还是按照传统的方式直接退出,当B启动之后,A也不会再启动,必须人工介入处理才行。
kubernetes的最好的方式就是启动时检查依赖,如果不满足,轮训等待,而不是直接退出。可以通过Init Container(https://kubernetes.io/docs/concepts/workloads/pods/init-containers/?spm=a2c63.p38356.879954.9.79896be3WGvb05#what-can-init-containers-be-used-for)完成这个功能

配置restart policy

pod运行过程中进程退出是个很常见的问题,无论是代码里面的一个BUG,还是占用内存还多,都会导致应用进程退出,pod退出。您可以在pod上配置restart Policy,都能实现pod挂掉之后在自动重启。
apiVersion: v1 kind: Pod metadata: name: tomcat spec: containers: - name: tomcat image: tomcat restartPolicy: OnFailure #
restart Policy有三个可选值

  • Always:总是自动重启
  • OnFailure:异常退出才自动重启(进程退出状态非0)
  • Never:从不重启

配置Liveness Probe和Readiness Probe

Pod处于running状态和pod能正常提供服务是完全不同的概念,一个running状态的pod,里面的进程可能发生了死锁而无法提供服务。但是因为pod还是running的,kubernetes也不会自动重启这个pod。所有我们要在所有pod上配置liveness probe,探测pod是否真的存活,是否还能提供服务。如果liveness probe发现了问题,kubernetes会自动重启pod。
readiness probe 用于探测pod是不是可以对外提供服务。应用启动过程中需要一些时间完成初始化,在这个过程中是没法对外提供服务的,通过readiness probe,可以告诉ingress 或者service能不能把流量继续转发到这个pod上,当pod出现问题的时候,readiness probe能够避免新流量继续转发给这个pod。
apiVersion: v1 kind: Pod metadata: name: tomcat spec: containers: - name: tomcat image: tomcat livenessProbe: httpGet: path: /index.jsp port: 8080 initialDelaySeconds: 3 periodSeconds: 3 readinessProbe: httpGet: path: /index.jsp port: 8080

每个进程一个容器

很多刚刚接触容器的人按照旧习惯把容器当做虚拟机(VM)使用,在一个容器里面放置多个进程:监控进程、日志进程、sshd进程、甚至整个systemd。这样操作存在两个问题:
- 判断pod整体的资源占用会变复杂,不方便实施前面提到resource limit。
- 容器内只有一个进程的情况,进程挂了,外面的容器引擎可以清楚的感知到,然后重启容器。如果容器内有多个进程,某个进程挂了,容器未必受影响,外部的容器引擎感知不到容器内有进程退出,也不会对容器做任何的操作,但是实际上容器已经不能正常工作了。
如果有好几个进程需要进行协同工作,在kubernetes里也可以实现,例如nginx和php-fpm,通过unix domain socket通信,我们可以用一个包含两个容器的pod,unix socker放在两个容器的共享volume中。

确保不存在SPOF(Single Point of Failure)

如果应用只有一个示例,当实例失败的时候,虽然kubernetes能够重启实例,但是中间不可避免的存在一段时间的不可用。甚至更新应用,发布一个新版本的时候,也会出现这种情况。在kubernetes里,尽量避免直接使用pod,尽可能的使用deployment/Statefulset,并且让应用至少有两个pod以上。

原文地址:https://www.cnblogs.com/passzhang/p/12253698.html

时间: 2024-09-29 03:41:38

K8S生产环境中实践高可靠的配置和技巧都有哪些?的相关文章

理解Docker(6):若干企业生产环境中的容器网络方案

本系列文章将介绍 Docker的相关知识: (1)Docker 安装及基本用法 (2)Docker 镜像 (3)Docker 容器的隔离性 - 使用 Linux namespace 隔离容器的运行环境 (4)Docker 容器的隔离性 - 使用 cgroups 限制容器使用的资源 (5)Docker 网络 (6)若干企业生产环境中的容器网络方案 Docker 在早期只有单机上的网络解决方案,在 1.19 版本引入了原生的 overlay 网络解决方案,但是它的性能损耗较大,可能无法适应一些生产环

Dubbo Mesh 在闲鱼生产环境中的落地实践

本文作者至简曾在 2018 QCon 上海站以<Service Mesh 的本质.价值和应用探索>为题做了一次分享,其中谈到了 Dubbo Mesh 的整体发展思路是"借力开源.反哺开源",也讲到了 Service Mesh 在阿里巴巴的发路径将经历以下三大阶段: 撬动做透价值***实现技术换代Dubbo Mesh 在闲鱼生产环境的落地,分享的是以多语言为撬动点的阶段性总结. 文章首发于「QCon」,阿里巴巴中间件授权转载. 闲鱼场景的特点闲鱼采用的编程语言是 Dart,思

构建生产环境可用的高可用kubernetes集群

kubernetes集群三步安装 构建生产环境可用的高可用kubernetes集群 | sealos项目地址 特性 [x] 支持任意节点的etcd集群自动构建,且etcd集群使用安全证书,通过static pod方式启动,这样可以通过监控pod来监控etcd集群健康状态 [x] 支持多master节点,允许任意一台master宕机集群功能不受影响 [x] calico使用etcd集群,配置安全证书,网络管控数据无单点故障 [x] 包含dashboard, heapster coreDNS add

Kubernetes 在生产环境中常用架构

Kubernetes 在生产环境中常用架构 首先,我们来梳理下Kubernetes生产架构,其设计适用于绝大多数环境.如下图所示 在该架构中,我们可以将其分为四层,如下: Client层:即Kubernetes集群外部用户.客户端等: 服务访问层:即由Traefik ingress实现服务发现.负载均衡和路由规则定义等: 业务应用层:即基于Kubernetes平台构建和运行企业业务应用,如CI/CD持续集成.微服务项目.监控告警和日志管理.私有镜像仓库等服务: 基础设施层:即由Kubernete

生产环境中CentOS7部署NET Core应用程序

NET Core应用程序部署至生产环境中(CentOS7) 阅读目录 环境说明 准备你的ASP.NET Core应用程序 安装CentOS7 安装.NET Core SDK for CentOS7. 部署ASP.NET Core应用程序 配置Nginx 配置守护服务(Supervisor) 这段时间在使用Rabbit RPC重构公司的一套系统(微信相关),而最近相关检验(逻辑测试.压力测试)已经完成,接近部署至线上生产环境从而捣鼓了ASP.NET Core应用程序在CentOS上的部署方案,今天

生产环境中tomcat的配置

生产环境中要以daemon方式运行tomcat 通常在开发环境中,我们使用$CATALINA_HOME/bin/startup.sh来启动tomcat, 使用$CATALINA_HOME/bin/shutdown.sh来关闭tomcat. 而在生产环境中,我们要配置tomcat使其以daemon方式运行,这是因为: 以daemon运行不受终端影响,不会因为退出终端而停止运行 可以让tomcat以普通用户身份运行,可以让tomcat随linux启动而启动 如何将tomcat配置成守护进程 将tom

在生产环境中安全执行更新删除SQL脚本的技巧

今天在生产环境上解决问题,由于广发银行的管理制度是开发公司是不允许确生产环境的,所以我们只能把要更新的语句发给运营中心,由运营中心的投产人员执行,我们则在旁边看着:在他执行的时候发现了一个很有趣的技巧,现在分享出来. 我们知道每一次在生产环境中执行中执行更新删除语句的时候都要格外小心,要做好数据备份,但是即便这样对于一个做了分库分表设计,有十几个G的库来说更新一句SQL后发现忘记写WHERE语句或是语句写错了,恢复备份的成本都是相当高的. 我注意到运营中心的人在拿到我的SQL语句后,把它放到MS

明白生产环境中的jvm参数

明白生产环境中的jvm参数 写代码的时候,程序写完了,发到线上去运行,跑一段时间后,程序变慢了,cpu负载高了--一堆问题出来了,所以了解一下生产环境的机器上的jvm配置是有必要的.比如说: JDK版本是多少?采用何种垃圾回收器? 程序启动的时候默认分配堆内存空间是多少?随着程序的运行,程序最多能使用多大的内存空间? 程序中使用了多少个线程?目前的java进程又处于何种状态? 了解了这些,会对程序的运行有一个更好的了解.本文结合生产实践,记录一下我常用的一些操作. 注意:如果没有特殊说明,下面所

13.生产环境中的 redis 是怎么部署的?

作者:中华石杉 面试题 生产环境中的 redis 是怎么部署的? 面试官心理分析 看看你了解不了解你们公司的 redis 生产集群的部署架构,如果你不了解,那么确实你就很失职了,你的 redis 是主从架构?集群架构?用了哪种集群方案?有没有做高可用保证?有没有开启持久化机制确保可以进行数据恢复?线上 redis 给几个 G 的内存?设置了哪些参数?压测后你们 redis 集群承载多少 QPS? 兄弟,这些你必须是门儿清的,否则你确实是没好好思考过. 面试题剖析 redis cluster,10