kubernetes性能测试实践

本文经作者张文娟授权发布。

欢迎访问网易云社区,了解更多网易技术产品运营经验。

概述

随着容器技术的发展,容器服务已经成为行业主流,然而想要在生产环境中成功部署和操作容器,关键还是容器编排技术。市场上有各种各样的容器编排工具,如Docker原生的Swarm、Mesos、kubernetes等,其中Google开发的kubernetes因为业界各大巨头的加入和开源社区的全力支撑,成为了容器编排的首选。

简单来讲,kubernetes是容器集群管理系统,为容器化的应用提供资源调度、部署运行、滚动升级、扩容缩容等功能。容器集群管理给业务带来了便利,但是随着业务的不断增长,应用数量可能会发生爆发式的增长。那在这种情况下,kubernetes能否快速地完成扩容、扩容到大规模时kubernetes管理能力是否稳定成了挑战。

因此,结合近期对社区kubernetes性能测试的调研和我们平时进行的k8s性能测试实践,和大家探讨下kubernetes性能测试的一些要点,不足之处还望大家多多指正!

测试目的

如上kubernetes架构图所示,无论外部客户端,还是kubernetes集群内部组件,其通信都需要经过kubernetes的apiserver,API的响应性决定着集群性能的好坏。

其次,对于外部客户而言,他只关注创建容器服务所用的时间,因此,pod的启动时间也是影响集群性能的另外一个因素。

目前,业内普遍采用的性能标准是:

API响应性:99%的API调用响应时间小于1s。
    Pod启动时间:99%的pods(已经拉取好镜像)启动时间在5s以内。

“pod启动时间”包括了ReplicationController的创建,RC依次创建pod,调度器调度pod,Kubernetes为pod设置网络,启动容器,等待容器成功响应健康检查,并最终等待容器将其状态上报回API服务器,最后API服务器将pod的状态报告给正在监听中的客户端。

除此之外,网络吞吐量、镜像大小(需要拉取)都会影响kubernetes的整体性能。

测试要点

一、社区测试kubernetes性能的关键点

  1. 当集群资源使用率是X%(50%、90% 、99%等不同规模下)的时候,创建新的pod所需的时间(这种场景需要提前铺底,然后在铺底基础上用不同的并发梯度创建pod,测试pod创建耗时,评估集群性能)。在测试kubernetes新版本时,一般是以老版本稳定水位(node、pod等)铺底,然后梯度增加进行测试。
  2. 当集群使用率高于90%时,容器启动时延的增大(系统会经历一个异常的减速)还有etcd测试的线性性质和“模型建立”的因素。调优方法是:调研etcd新版本是否有解决该问题。
  3. 测试的过程中要找出集群的一个最高点,低于和高于这个阈值点,集群性能都不是最优的。
  4. 组件负载会消耗master节点的资源,资源消耗所产生的不稳定性和性能问题,会导致集群不可用。所以,在测试过程中要时刻关注资源情况。
  5. 客户端创建资源对象的格式 —— API服务对编码和解码JSON对象也需要花费大量的时间 —— 这也可以作为一个优化点。

二、网易容器服务k8s集群性能测试关键点总结

集群整体

  1. 不同的集群使用水位线(0%,50%, 90%)上,pod/deployment(rs 等资源)创建、扩缩容等核心操作的性能。可以通过预先创建出一批dp(副本数默认设置为3)来填充集群,达到预期的水位,即铺底。
  2. 不同水位对系统性能的影响——安全水位,极限水位
  3. 容器有无挂载数据盘对容器创建性能的影响。例如,挂载数据盘增加了kubelet挂载磁盘的耗时,会增加pod的启动时长。

测试kubernetes集群的性能时,重点关注在不同水位、不同并发数下,长时间执行压力测试时,系统的稳定性,包括:

  • 系统性能表现,在较长时间范围内的变化趋势
  • 系统资源使用情况,在较长时间范围内的变化趋势
  • 各个服务组件的TPS、响应时间、错误率
  • 内部模块间访问次数、耗时、错误率等内部性能数据
  • 各个模块资源使用情况
  • 各个服务端组件长时间运行时,是否出现进程意外退出、重启等情况
  • 服务端日志是否有未知错误
  • 系统日志是否报错。

apiserver

  1. 关注api的响应时间。数据写到etcd即可,然后根据情况关注异步操作是否真正执行完成。
  2. 关注apiserver缓存的存储设备对性能的影响。例如,master端节点的磁盘io。
  3. 流控对系统、系统性能的影响。
  4. apiserver 日志中的错误响应码。
  5. apiserver 重启恢复的时间。需要考虑该时间用户是否可接受,重启后请求或者资源使用是否有异常。
  6. 关注apiserver在压力测试情况下,响应时间和资源使用情况。

scheduler

  1. 压测scheduler处理能力
  • 并发创建大量pod,测试各个pod被调度器调度的耗时(从Pod创建到其被bind到host)
  • 不断加大新建的pod数量来增加调度器的负载
  • 关注不同pod数量级下,调度器的平均耗时、最大时间、最大QPS(吞吐量)

2. scheduler 重启恢复的时间(从重启开始到重启后系统恢复稳定)。需要考虑该时间用户是否可接受,重启后请求或者资源使用是否有异常。

3. 关注scheduler日志中的错误信息。

controller

  1. 压测 deployment controller处理能力
  • 并发创建大量rc(1.3 以后是deployment,单副本),测试各个deployment被空感知并创建对应rs的耗时
  • 观察rs controller创建对应pod的耗时
  • 扩容、缩容(缩容到0副本)的耗时
  • 不断加大新建deployment的数,测试在不同deployment数量级下,控制器处理deployment的平均耗时、最大时间、最大QPS(吞吐量)和控制器负载等情况

2. controller 重启恢复的时间(从重启开始到重启后系统恢复稳定)。需要考虑该时间用户是否可接受,重启后请求或者资源使用是否有异常。

3. 关注controller日志中的错误信息。

kubelet

  1. node心跳对系统性能的影响。
  2. kubelet重启恢复的时间(从重启开始到重启后系统恢复稳定)。需要考虑该时间用户是否可接受,重启后请求或者资源使用是否有异常。
  3. 关注kubelet日志中的错误信息。

etcd

  1. 关注etcd 的写入性能
  • 写最大并发数
  • 写入性能瓶颈,这个主要是定期持久化snapshot操作的性能

2. etcd 的存储设备对性能的影响。例如,写etcd的io。

3. watcher hub 数对k8s系统性能的影响。

网易云容器服务为用户提供了无服务器容器,让企业能够快速部署业务,轻松运维服务。容器服务支持弹性伸缩、垂直扩容、灰度升级、服务发现、服务编排、错误恢复及性能监测等功能。

相关文章:
【推荐】 白木彰:具有普遍性的设计力
【推荐】 网易云易盾朱浩齐:视听行业步入强监管和智能时代
【推荐】 发布流程进化史

原文地址:https://www.cnblogs.com/zyfd/p/10008684.html

时间: 2024-10-11 20:44:54

kubernetes性能测试实践的相关文章

Kubernetes 最佳实践:零宕机升级集群

文 / 开发技术推广工程师 Sandeep Dinesh 众所周知,为优化安全性和性能,最好让应用时刻保持最新状态.Kubernetes 和 Docker 可以简化上述更新操作,因为您可以用更新构建一个新容器,部署操作相对而言更加轻松. 与应用类似,Kubernetes 不断获取新功能和安全更新,因此,底层节点和 Kubernetes 基础架构也需要保持最新状态. 在本集的 "Kubernetes 最佳实践" 中,我们来看看 Google Kubernetes Engine 如何使升级

基于Neutron的Kubernetes SDN实践经验之谈

首先,向大家科普下Kubernetes所选择的CNI网络接口,简单介绍下网络实现的背景. CNI即Container Network Interface,是一套容器网络的定义规范,包括方法规范.参数规范.响应规范等等.CNI只要求在容器创建时为容器分配网络资源.删除容器时释放网络资源.CNI与调用者之间的整个交互过程如下图所示: CNI实现与外界的交互都通过进程参数和环境变量传递,也只要求输出结果符合CNI规范即可,与实现语言也没什么特殊要求.比如Calico早期版本就使用Python实现了CN

kubernetes落地 |不捧不踩,国外公司向Kubernetes迁移实践

导读: Kubernetes一骑绝尘开挂来,那么企业应该开始向Kubernetes迁移吗?什么情况下真正的接受它?一些技术前沿公司先行一步的实践恐怕最有说服力和参考价值.本文即是一则很好的参考. 1 Kubernetes如今风靡一时,它是庞大的云原生运动中的一部分.所有主要的云提供商都将其作为部署云原生应用的解决方案.就在几个星期前,AWS重新推出了EKS(Amazon Elastic Container Service for Kubernetes),这是一个完全托管的Kubernetes集群

Linux性能测试实践

前言 Linux性能测试.监控.优化是一个持续的过程,上图为LinuxCon上Brendan D. Gregg分享的 Linux benchmarking tools 示意图,涵盖面十分广泛.我们可以通过成熟的监控方案如BMC Patrol,Zabbix来捕获大部分信息,在实际工作中我们会经常关注I/O性能,一般可以使用dd/ORION/IOzone做简单的测试,如果需 要获取更加全面详细的报告可以使用nmon,本文将主要介绍Super PI /dd/nmon三种简单而有效的监测方法. CPU

DM数据库性能测试实践

一.环境说明 1.1 测试机环境: 说明: 测试机环境为一般主机即可,要求不高 1.2 虚拟机环境: 二.测试拓扑 说明: 1.性能测试为不同主机测试即:测试机与被测系统不再一个机器上面 2.测试机为一般主机即可 3.测试机与物理机之间的网络最低为千兆网络 注:当前是华为鲲鹏服务器.同样适用于长城服务器 三.测试步骤 3.1 创建测试用户与表 在数据库中输入: create tablespace "TPCC" datafile 'TPCC.dbf' size 10000 autoext

apache ab性能测试实践

E:\developtools\apache ab\httpd-2.4.25-x86-vc14-r1\Apache24\bin>ab -n 15000 -c 600 "http://192.168.0.166:8080/eduhomeweb/login/login.do?username=xiaohanlin&password=xiao123456"This is ApacheBench, Version 2.3 <$Revision: 1757674 $>C

性能测试实践-linux

需求:线上系统性能优化,查找服务器和线上系统瓶颈 根据线上经验数据及期望值定量 数据   up down 线上数据 50 500 测试数据 100 500~2000+ 测试数据 200 500~2000+ 测试数据 300 500~2000+ 4. 工具:top.ltrace top:能够实时显示各进程占用资源情况 ltrace:能够跟踪进程的库函数调用,它会显现出哪个库函数被调用 gdb 5. 自动化实现: up为100,down从500增加至2000,分析日志,曲线图 up为200,down

JMeter 性能测试进阶实战

课程简介 本课程制作的主要目的是为了让大家快速上手 JMeter,期间穿插了大量主流项目中用到的技术,以及结合当今主流微服务技术提供了测试 Dubbo 接口.Java 工程技术具体实施方案,注重实践.注意引导测试思维.拒绝枯燥的知识点罗列.善于用实例展示实践过程.学完本课程,可以快速录制.开发.调试性能脚本,建立测试场景并且可以进行性能测试分析.特色如下: 覆盖 JMeter 的每一个细节: 介绍了 JMeter 在性能.自动化的双领域应用: 有完善的性能测试体系的展现: 为 Java.MySQ

Kubernetes网络方案的三大类别和六个场景

欢迎访问网易云社区,了解更多网易技术产品运营经验. 本文章根据网易云资深解决方案架构师 王必成在云原生用户大会上的分享整理. 今天我将分享个人对于网络方案的理解,以及网易云在交付 Kubernetes 场景时的一些网络实践. 本文分为两部分: 第一部分:常见容器网络方案: 第二部分:网易云基于 VPC 深度集成的 Kubernetes 网络实践. 常见容器网络方案 常见容器网络方案分类   常见的容器网络方案可以从协议栈层级.穿越形态.隔离方式这三种形式进行划分. 协议栈层级: 第一种:协议栈二