阿里云异构计算发布:轻量级GPU云服务器实例VGN5i

阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本、更高弹性开展业务。适用于云游戏、VR/AR、AI推理和DL教学等轻量级GPU计算场景,更细粒度的GPU计算服务。

轻量级GPU云服务器是什么?

轻量级GPU云服务器是一种新的GPU云服务器规格族,是通过公共云的GPU虚拟化技术将分片虚拟化后的GPU资源以虚拟GPU的形式安装在GPU云服务器实例中。与常规GPU云服务器的区别在轻量级GPU云服务器提供更细力度的GPU计算资源,比如拥有更少的CUDA计算核心,更小的显存。这样做的优势是在业务应用中,业务可以根据资源所需更加灵活的配置GPU计算资源。

用户在使用常规GPU云服务器的时候遇到了哪些痛点?

GPU的计算颗粒过大:
单颗物理GPU的计算能力越做越强大,但是许多应用需要更小颗粒的GPU计算资源;
常规GPU资源不利于业务自动伸缩:
拥有单颗物理GPU资源的实例在业务部署中会因为要充分利用GPU资源而造成“胖节点”,不利于设计成弹性伸缩架构,缺乏灵活性,无法应对业务快速变化;
常规GPU计算实例无法在线迁移:
常规直通虚拟化的GPU实例,由于架构特性无法支持GPU实例的在线迁移;

轻量级GPU云服务器与常规GPU云服务器有哪些不同?

我们从GPU加速器呈现方式,业务连续性,计算业务场景以及使用与管理看不同:
GPU加速器呈现
常规GPU云服务器实例是通过设备直通方式提供物理GPU加速器;
轻量级GPU云服务器实例是通过GPU虚拟化方式提供虚拟GPU加速器;
业务连续性
常规GPU云服务器仅支持作业离线迁移
轻量级GPU云服务器支持作业在线迁移
计算业务场景
常规GPU云服务器适用于重负载的GPU加速计算,例如:深度学习训练与推理计算、HPC计算、重载图形计算
轻量级GPU云服务器适用于轻负载的GPU加速计算,例如:轻负载的深度学习推理计算、深度学习教学场景、云游戏与VR/AR场景
使用与管理
常规GPU云服务器提供弹性计算服务实例、业务扩展以单颗物理GPU资源方式增加
轻量级GPU云服务器依然提供弹性计算服务实例,但业务扩展以更小粒度GPU资源方式增加(例如:1/8或1/4颗Tesla P4的资源);

VGN5i有哪些技术亮点和技术领先性,解决哪些问题?

技术亮点:支持用户在公共云上创建更小颗粒的虚拟GPU的云服务器实例。
技术领先性有三点:
任何一项领先的计算技术要将其移植到公共云上输出,还是要遵循可靠性、经济性和易用性的技术要求。
首先是可靠性,公共云服务器首先是公共服务,要给所有用户提供“简单可依赖”的基础服务;虽然虚拟化GPU技术在私有部署条件下使用比较成熟,但是在公共云上使用还是要面临几个可靠性的挑战的:第一是数据安全性;第二是资源隔离;这两个问题在私有部署条件下通常是没有要求的,原因是私有部署都是给同一用户部署使用,安全和资源争抢问题都比较容易解决。但是,要在公共云上使用,这些问题在公共云上就必须解决。
其次是经济性,用户能选择使用轻量级GPU云服务器出发点是希望更加精细的使用GPU资源,本质是追求经济性。虚拟化GPU技术在私有环境部署,因为需求确定,可以根据预想好的使用场景来配置虚拟化比例,但在公共云场景就要解决既要满足所有用户的使用场景,又要保持调度系统的高效,不断降低成本,追求经济性。
最后是易用性,易用性表现在几个方面,一个是管理接口和使用习惯与其他ECS实例保持一致,另一个是APP在GPU实例中的使用场景和方式与其他常规GPU实例保持一致。这样用户就没有学习成本了。

轻量级GPU云服务器如何使用?

GPU实例的用法与普通弹性计算实例一样便捷,用户可以使用Web控制台或者OpenAPI方式配置和购买服务。用户在使用过程中可以完全掌控该实例,该实例在阿里云计算环境中运行,还可以配合其他云服务一起使用。当用户业务遇到业务高峰时可以在数分钟内扩展新的实例来适应业务增长。用户在虚拟化GPU服务的使用全过程中均可以享受到在线服务咨询和快速故障处理服务。

轻量级GPU云服务器的实例有哪些?

目前开放售卖基于NVIDIA Tesla P4的VGN5i实例,该实例提供八分之一到一比一的虚拟GPU加速器;
后面会上线基于NVIDIA Tesla T4的VGN6i实例,该实例提供十六分之一到一比一的虚拟GPU加速器;

轻量级GPU云服务器的适用场景有哪些?

轻量级GPU云服务器可以根据业务需求配置创建贴合业务所需计算资源的GPU云服务器实例,因此可以在每个轻量级GPU云服务器实例上仅运行一个计算业务负载,在业务峰值来临时,横向扩展某一个计算业务负载即可。这样的特性十分适合互联网业务中AI计算的批量部署以及云游戏,AR/VR在云端应用和深度学习的教学实验场景。

VGN5i的用户价值有哪些?

VGN5i的用户价值包括:降低批量部署GPU实例的成本,可以轻松实现快速弹性伸缩以及提高运维效率。
降低批量部署成本
在诸多图形计算和AI推理计算的场景中,用户通常并不要求单GPU实例的计算性能十分强大,而是更加关注业务在批量部署中的成本。小粒度的虚拟化GPU实例则更加合适这些场景,很好的平衡用户业务在批量部署中的成本需求。
实现快速弹性伸缩
拥有了小粒度的虚拟化GPU实例,用户不必再为了匹配较强的物理GPU资源而将服务部署成为复杂的胖服务节点,而是可以基于容器方式将有GPU计算需求的服务都解耦部署在不同的虚拟化GPU实例节点上。这样部署的瘦服务节点更加有利于快速弹性伸缩,在业务的任何时刻都可以应对自如,提高业务运维效率。
提高运维效率
使用小颗粒的虚拟化GPU实例进行瘦服务节点部署,使得服务环境配置和服务接口变得简单,使用不同的镜像即可部署大规模的AI应用而无需部署复杂的胖节点,提供运维效率,降低时间风险和成本。

直播观看地址:https://yq.aliyun.com/live/938
查看产品VGN5i:https://www.aliyun.com/product/ecs/gpu
VGN5i·释放GPU计算新动力:https://promotion.aliyun.com/ntms/act/vgpu.html
阿里云新品发布会频道:https://promotion.aliyun.com/ntms/act/cloud/product.html
阿里云新品发布·周刊:https://yq.aliyun.com/publication/36

原文地址:https://blog.51cto.com/13927391/2377344

时间: 2024-12-17 03:07:29

阿里云异构计算发布:轻量级GPU云服务器实例VGN5i的相关文章

应用于3D图形制作环境的_JITStack轻量级GPU云桌面

在云桌面领域,按照图形制作需求可区分出两大业务场景,一种场景是以普通办公.代码编写等文字类操作为主的非专业图形场景,另一种是以3D设计,视频编辑等图形类操作为主的专业图形制作场景(GPU云桌面),这两类场景对基础硬件要求有很明显的差异,因此被区分的很清晰,管理员也很容易的知道自己需要搭建什么样的基础环境来满足业务场景的需求.然而,有一类业务场景一直以来难以被界定是否为GPU云桌面场景,以至于被云桌面厂商与云桌面用户忽视至今,这就是以AutoCAD.PS.AI等平面设计类业务为主的图像操作场景.这

单颗GPU计算能力太多、太贵?阿里云发布云上首个轻量级GPU实例

摘要: 阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹性开展业务. 在硅谷举办的2019年NVIDIA GPU技术大会(GTC)上,阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹性开展业务. 在该实例发布之前,业内均采用以单颗物理GPU为单位的

阿里云异构计算产品是如何保障双11业务的

一年一度的双11购物狂欢节,是全球商家和消费者的盛会,同时也是一场技术的盛会,人脸识别,图片搜索,字符识别,语音识别,8K视频直播,智能推荐,语音助手等最先进的技术手段被广泛使用,为大促的各个环节保驾护航.作为IT基础设施的基石,阿里云ECS为阿里集团双十一业务提供了强有力的计算保障. 阿里云异构计算产品--GPU云服务器和FPGA云服务器,作为ECS产品家族中的一员,今年支撑了集团超过10个BU的双11业务,这当中包括电商业务,新零售业务,视频直播业务以及双11后台支持业务等核心环节. 得益于

阿里云服务器实例规格怎么选,阿里云所有实例规格适用场景汇总

现在提到上云服务器,大多用户首先想到的就是阿里云,但是用户在实际购买阿里云服务器的时候却发现阿里云有多大几十种实例规格,对于新手来说,往往就不知道怎么选择了,其实我们可以根据阿里云官方介绍的实例规格所适合的适用场景选择就可以了. 以下表格仅展示了阿里云每个实例规格所适用的场景,更多实例的具体信息(网络收发包能力.处理器等)请参考阿里云帮助中心-实例规格族介绍 以下为阿里云服务器实例规格所对应的适用场景: 实例类型 适用场景 突发性能实例规格族t5 Web应用服务器轻负载应用.微服务开发测试压测服

使用阿里云ECS发布网站的基本步骤

以前写过阿里云安全组开通步骤文章,似乎过于详细.今天重新简略介绍阿里云ECS发布网站的步骤 虽然阿里云帮助文档丰富齐全,但是依然很多新人不懂文档,没有用好帮助文档.我在这里基于大部分用户的使用需求(发布网站)来整理一个简易的操作步骤教程.很多人其实卡在了这个过程的安全组环节.遇到过使用阿里云ECS网站发布后公网不能访问的情况的可以重点参考本文第五第4步. 1,领券购买抽奖 领券,这里推荐各位先领取下我的幸运券(http://2bit.cn/q),此券针对阿里云单类产品的首次购买可用,部分产品升级

使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控

摘要: 目录 使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控 使用云监控实现GPU云服务器的GPU监控和报警(下)-云监控插件监控 1 背景 上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GP. 1 背景上一篇文章我们介绍了如何使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控

Windows server 2008 布署FTP服务器实例(适用于阿里云)!

Windows server 2008 布署FTP服务器实例(适用于阿里云). 1.打开管理.配置-用户-新建用户,如:ftp_user,并设置password.选择永只是期和password不能更改,其它的不用动. 2.在IIS(此处忽略)中右建网站.新建-ftp网站,重点两个方面.一个是不要ssl,一个是选择基本身份验证,输入创建的username! OK,假设21port正常开启的情况下,就能够了. 让ftp用户,不能在server登陆,详细的方法例如以下: 1.执行regedit.打开注

云计算之路-阿里云上:弹性伸缩无服务器可弹,已有服务器无兵可援

活动起因: A scheduled task executes scaling rule "eBsJ2veNkwJkcGinmICVH1Q", changing the Total Capacity from "0" to "1". 详细信息: Fail to create Instance into scaling group("The requested resource is sold out in the specified z

阿里云HBase发布冷存储特性,轻松搞定冷数据处理

摘要: 9月27日,阿里云HBase发布了冷存储特性.用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本.冷存储的存储成本仅为高效云盘的1/3,适用于数据归档.访问频率较低的历史数据等各种场景. 9月27日,阿里云HBase发布了冷存储特性.用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本.冷存储的存储成本仅为高效云盘的1/3,适用于数