实际场景中,云原生存储面临的 7 个挑战

作者 | Eric Li (壮怀)? 阿里巴巴云原生存储负责人

引言

随着云原生应用对可迁移性、扩展性和动态特性的需求,对云原生存储也带来了相应的密度、速度、混合度的要求,所以对云存储基本能力之上又提出了在效率、弹性、自治、稳定、应用低耦合、GuestOS 优化和安全等方面的诉求。参考《云原生存储和云存储有什么区别?》

新的企业负载/智能工作负载容器化、迁云、存储方面遇到的性能、弹性、高可用、加密、隔离、可观测性及生命周期等方面的问题,不但需要存储产品层次的改进,还需要在云原生的控制/数据平面的改进,推进云原生存储和云存储的演进。下文将分别介绍一下问题场景及问题,探讨可行的解决方案,最终可以得出云原生存储、云存储目前可以做什么和未来还需要做什么。

存储性能

长时延增加

场景

高性能计算场景中,集中处理批量数据,通过容器集群,同时启动数千 Pod,弹出数百 ECS 对共享性文件系统读写。

问题

重负载终负载下时延增加,高延迟毛刺增多,读写稳定性不足。

解决方案

  • 分散负载到多文件系统,通过容器编排分散 IO 到多文件系统
  • 存储产品的盘古 2.0 改造

集中式高吞吐写对共享存储池冲击

场景

高性能计算场景中,集中处理批量数据,10Gbps 读写请求进入同一存储集群。

问题

同一存储集群中的带宽挤占,造成访问质量下降。

解决方案

  • 分散负载到多文件系统和多个存储集群/多个可用区,通过容器编排分散 IO 到多文件系统;
  • 使用独占高性能并行文件系统。

峰值吞吐不足

场景

大规模生物数据处理, 文件数目少,峰值吞吐高 10Gbps-30Gbps,请求密集 1W/s。

问题

接近独占集群的极限带宽。

解决方案

  • 读写分流,分流读请求到 OSS,写请求负载分流到独占文件系统和本地/远程块存储,通过容器编排分散 IO 到多文件系统;
  • 使用应用层分布式缓存降低网络读 IO;
  • 存储产品的盘古 2.0 改造。

时延增加导致 GPU 等待

场景

多机多卡 GPU 训练,直接读取 OSS 数据,读密集型。

问题

时延增加导致 IOwait 和 GPU 等待。

解决方案

  • 应用层透明 POSIX 读访问 OSS;
  • 使用应用层分布式缓存降低网络读 IO。

存储弹性

场景

  • 数据库扩容, MySQL and etc;
  • 元数据管理应用在线扩容 Zookeeper/etcd;
  • 本地盘存储容量无法扩容。

解决方案

  • 云盘在线扩容,应用控制面文件系统/逻辑卷离线,在线扩容能力;
  • 单机云盘挂载密度;
  • 存储产品 ESSD 的替换使用。

存储高可用

场景

  • 应用运维,系统运维;
  • 块存储随容器迁移的稳定性和可发现性。

解决方案

  • 控制平面声明式存储快照,备份,定时快照备份,本地快照加速备份和恢复;
  • 控制平面云盘 SerialNum 的可发现性改造。

存储的加密

场景

  • 用户应用的全链路数据加密需求;
  • 操作系统盘加密。

解决方案

  • 产品存储的 CMK,BYOK 支持
  • 控制平面的加密声明支持
  • RAM 权限的最小化控制

存储的隔离性

场景

  • 单盘多应用共享,单机日志盘块存储切分
  • 单块本地盘/云盘吞吐能力不足
  • 文件系统多租户环境的容量配额
  • 集群级文件系统共享访问的权限控制

解决方案

  • 控制面 LVM 切分,控制面块存储 blkio buffer IO 应用级限速
  • 控制面 LVM 多盘聚合和条带
  • 存储产品共享文件系统的目录级 Quota
  • 控制面文件系统的目录级 ACL

存储的可观测性

场景

多租户 Zookeeper/etcd,租户/应用级的 IO 指标监控和预警。

解决方案

  • 控制面应用级 IO Metrics 采集能力
  • 控制面设备级 IO Metrics 采集能力
  • 控制面挂载点级 IO Metrics 采集能力

存储的生命周期

场景

共享文件系统/缓存系统的声明式创建和删除。

解决方案

  • Operator: 云盘/本地盘 (TiDB)
  • Operator: 文件系统,CPFS
  • Operator: 对象存储

云原生存储 v2

针对以上在新的计算模式下,存储方面遇到的性能,弹性,高可用,加密,隔离,可观测性,生命周期等方面的问题,不但是需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,在不久的将来实现稳定,安全,自治,和效率并举的云原生存储 v2。

  • 稳定:阿里云存储的全品类支持可观测性, Flexvolume and CSI plugins/IO metrics (CSI for 1.14);
  • 安全:全连路数据存储的可靠/可信存储支持,CSI 快照加密,系统盘加密;
  • 自治:云盘快照 /本地快照 ,离线在线的存储扩容能力, 元数据自动发现;
  • 效率:I/O 隔离 、可伸缩性/云盘再次分割提升密度/分布式存储缓存。

需要在云原生应用层、存储云产品层、底层存储适配和存储核心层都需要做相应的改进和提升才有可能提供更加稳定,安全,自治和高效的面向应用的云原生存储。

总结

  • 云原生存储是云存储 UI 和效率等能力的集合;
  • 分层存储,不重新发明轮子;
  • 新的工作负载推进云原生存储和云存储的演进,云原生控制平面实现效率,自治方面能力,从数据面提升存储稳定和减小安全隐患,云存储继续夯实性能,容量,弹性,密度等基础能力,共建云原生环境下的存储生态。

在云原生存储 v2 的演进过程中,仍然需要容器团队和存储团队,通力合作,共同提升的云原生时代的存储能力。

阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的公众号。”

原文地址:https://blog.51cto.com/13778063/2481690

时间: 2024-10-08 03:14:05

实际场景中,云原生存储面临的 7 个挑战的相关文章

云原生存储和云存储有什么区别?

作者 |?李鹏(壮怀) 阿里云智能事业群高级技术专家 导读:新的企业负载/智能工作负载容器化.迁云.存储方面遇到的性能.弹性.高可用.加密.隔离.可观测性以及生命周期等方面的问题,不但需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,推进云原生存储和云存储的演进.本文将介绍一下问题场景,探讨可行的解决方案,最终得出云原生存储以及云存储目前可以做什么和未来还需要做什么. 引言 最近有幸参加了由 Infra Meetup 联合 Kubernetes & Cloud Native Meet

CNCF官方大使张磊:什么是云原生?

作者|张磊 阿里云容器平台高级技术专家,CNCF 官方大使 编者说: 从 2015 年 Google 牵头成立 CNCF 以来,云原生技术开始进入公众的视线并取得快速的发展,到 2018 年包括 Google.AWS.Azure.Alibaba Cloud 等大型云计算供应商都加入了云原生基金会?CNCF,云原生技术也从原来的应用容器化发展出包括容器.Service Mesh.微服务.不可变基础设施.Serverless.FaaS 等众多技术方向,CFCF 旗下也囊括了越来多的开源项目. Kub

如何保障云上数据安全?一文详解云原生全链路加密

点击下载<不一样的 双11 技术:阿里巴巴经济体云原生实践> 本文节选自<不一样的 双11 技术:阿里巴巴经济体云原生实践>一书,点击上方图片即可下载! 作者李鹏(壮怀)阿里云容器服务高级技术专家黄瑞瑞? 阿里云技术架构部资深技术专家 导读:对于云上客户而言,其云上数据被妥善的安全保护是其最重要的安全需求,也是云上综合安全能力最具象的体现.本文作者将从云安全体系出发,到云数据安全,再到云原生安全体系对全链路加密进行一次梳理,从而回答:在云原生时代,全链路加密需要做什么?如何做到?以

微服务架构与实践及云原生等相关概念

微服务架构与实践 笔记:<微服务架构与实践> 王磊 著 一 单块架构 1 定义:对于这种功能集中.代码和数据中心化.一个发布包.部署后运行在同一进程的应用程序,我们通常称之为单块架构应用,并非物理上的分层. 2 单层架构:数据 逻辑 页面 混合 3 三层架构: 1)表示层:数据显示和用户交互 2)业务逻辑层:业务逻辑处理 3)数据访问层:数据存储访问 4 优势: 比较适合小项目 易于开发:开发简单直接,集中式管理,基本不会重复开发,集成工具适合 易于测试:单进程 易于部署:单项目包,功能都在本

360&#176;透视:云原生架构及设计原则

欢迎访问网易云社区,了解更多网易技术产品运营经验. 云原生(Cloud Native)的概念,由来自Pivotal的MattStine于2013年首次提出,被一直延续使用至今.这个概念是Matt Stine根据其多年的架构和咨询经验总结出来的一个思想集合,并得到了社区的不断完善,内容非常多,包括DevOps.持续交付(Continuous Delivery).微服务(MicroServices).敏捷基础设施(Agile Infrastructure)和12要素(TheTwelve-Factor

基于Kubernetes的技术中台让云原生C位出道

一. 认识云原生与Kubernetes 随着云原生技术的飞速发展,新概念层出不穷,例如DevOps.微服务.容器.弹性云等,直有"乱花渐欲迷人眼"之势.云计算从业者们反复谈及"云原生"这个概念,但对其定义与理解却各有不同. 云原生(Cloud Native)的概念,最早由Pivotal的MattStine根据其多年的架构和咨询经验于2013年首次提出.2015年7月,隶属于 Linux 基金会的云原生计算基金会CNCF(Cloud Native Computing

9 年云原生实践全景揭秘|《阿里巴巴云原生实践 15 讲》正式开放下载

以容器.服务网格.微服务.Serverless 为代表的云原生技术,带来一种全新的方式来构建应用.同时,云原生也在拓展云计算的边界,一方面是多云.混合云推动无边界云计算,一方面云边端的协同.在云的趋势下,越来越多的企业开始将业务与技术向“云原生”演进. 在这个演进过程中,企业都或多或少都面对一些困惑与挑战,其中如何将应用和软件向 Kubernetes 体系进行迁移.交付和持续发布是一个普遍的难题. 阿里巴巴从 2011 年开始通过容器实践云原生技术体系,在整个业界都还没有任何范例可供参考的大背境

阿里巴巴的云原生与开发者

作者 | 李响 阿里云资深技术专家 关注"阿里巴巴云原生"公众号,回复关键词"容器",可下载云栖大会容器专场全部 PPT 摘要:利用云原生技术构建应用简便快捷,部署应用轻松自如,运行应用按需伸缩.如今,云原生已经成为下一代技术发展的趋势.在?2019?杭州云栖大会开发者峰会上,阿里巴巴资深技术专家李响就为大家分享了阿里巴巴的云原生技术与开发者的那些故事. 为什么选择云原生? 云原生的本质目标就是充分释放云计算带来的红利,阿里巴巴希望开发者能够使用云上极致弹性的资源交

2020云原生7大趋势预测!

2020云原生7大趋势预测! 过去的几年,是云原生技术和理念得到广泛接受的几年.在这个快速发展的领域,预测未来显得尤其困难,但是我们又有着一些坚定的信念,相信以开放创新为支撑的云原生领域会持续重塑软件生命周期,带来不断的价值. 2019,在众多热门技术趋势中,云原生的关注度居高不下,很多开发者都对由此而兴起的一众技术十分追捧,众多企业开始探索云原生架构转型落地.在中国,开发者们经历了从关注“云原生概念”到关注“云原生落地实践”的转变. 在筹备阿里云首届云原生实践峰会的过程中,我们展开了对云原生技