BpFile(id=289, bpId=163, name=ACK实现GPU成本优化, author=null, keyword=ACK,GPU,共享GPU,容器,云原生, description=利用阿里云容器服务ACK部署GPU集群之后,出于成本优化的考虑,对于集群中GPU利用率不高的应用,比如推理的应用,建议利用阿里云cGPU技术将一定数量的应用跑到一块GPU卡上,以提高利用率。对于GPU利用率比较高的应用,不做改动。这样可以实现灵活管理的同时,降低整体成本。, position=null, ossUrl=bp-T72KF8TORZUQEYRA.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
利用阿里云容器服务ACK部署GPU集群之后,
出于成本优化的考虑,对于集群中GPU利用率
不高的应用,比如推理的应用,建议利用阿里云
cGPU技术将一定数量的应用跑到一块GPU卡
上,以提高利用率。对于GPU利用率比较高的
应用,不做改动。这样可以实现灵活管理的同时,
降低整体成本。
解决问题
1.在ACK服务中实现共享GPU,灵活拆分
2.提高GPU利用率,降低TCO
3.应用无需修改,保障多个容器共享同一个
GPU时,彼此互相隔离
产品列表
ECS云服务器
GPU云服务器
容器服务ACK
专有网络VPC
ARMS监控
ESS弹性扩容
, templateId=YT13FK0WPOJQDK3P, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=YT13FK0WPOJQDK3P, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)
1ACK实现GPU成本优化 最佳实践
场景描述
架构图
利用阿里云容器服务ACK部署GPU
集群之后,出于成本优化的考虑,对
于集群中GPU利用率不高的应用,
比如推理的应用,建议利用阿里云
cGPU技术将一定数量的应用跑到一
块GPU卡上,以提高利用率。对于
GPU利用率比较高的应用,不做改
动。这样可以实现灵活管理的同时,
降低整体成本。
解决问题
1. 在ACK服务中实现共享GPU,
灵活拆分
2. 提高GPU利用率,降低TCO
3. 应用无需修改,保障多个容器共
享同一个GPU时,彼此互相隔
离
产品列表
ECS云服务器
GPU云服务器
容器服务ACK
专有网络VPC
ARMS监控
ESS弹性扩容
2Z'z 文档模板(手册名称)/文档版本信息
阿里云
企业上云实践
ACK实现GPU成本优化
最佳实践
文档版本:20210119
文档版本:20150122(发布日期) 2
3ACK实现GPU成本优化 最佳实践 法律声明
文档版本信息
文本信息
属性 内容
文档名称 ACK实现GPU成本优化最佳实践
文档编号 163
文档版本 V1.1
版本日期 2021-01-19
文档状态 外部发布
制作人 敬海
审阅人 懿弘适己
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2020-07-01 敬海 懿弘适己 创建
V1.1 2021-01-19 敬海 修改yaml文件
I
4ACK实现GPU成本优化 最佳实践 前言
前言
概述
利用阿里云容器服务ACK部署GPU集群之后,出于成本优化的考虑,对于集群中
GPU利用率不高的应用,比如推理的应用,建议利用阿里云cGPU技术将一定数量
的应用跑到一块GPU卡上,以提高利用率。对于GPU利用率比较高的应用,不做
改动。这样可以实现灵活管理的同时,降低整体成本。
应用范围
在阿里云容器服务ACK中,利用cGPU技术,共享GPU算力,提高GPU利用率,
降低TCO。
名词解释
容器服务ACK:()提供高性能
可伸缩的容器应用管理服务,支持企业级Kubernetes容器化应用的生命周期管
理。容器服务ACK简化集群的搭建和扩容等运维工作,整合阿里云虚拟化、存
储、网络和安全能力,打造云端最佳的Kubernetes容器化应用运行环境。详见
https://help.aliyun.com/document_detail/86737.html
GPU云服务器:基于GPU应用的计算服务,多适用于AI深度学习,视频处理,
科学计算,图形可视化,等应用场景,型号有AMDS7150,NvidiaM40,Nvidia
P100,NvidiaP4,NvidiaV100,阿里云成为中国首家与NGCGPU加速容器合
作的云厂商。详见https://cn.aliyun.com/product/ecs/gpu
NAS:阿里云文件存储(NAS)NetworkAttachedStorage是一种分布式的网络
文件存储,为ECS、HPC、FC等提供安全、无限容量、高性能、高可靠、简单
易用的文件存储服务。FC与NAS无缝集成。这使您的函数可以像访问本地文件
系统一样编写访问存储在其中一个NAS文件系统上的文件。详见
https://cn.aliyun.com/product/nas
对象存储OSS:海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%
的数据可靠性。使用RESTfulAPI 可以在互联网任何位置存储和访问,容量和
处理能力弹性扩展,多种存储类型供选择全面优化存储成本。详见
https://www.aliyun.com/product/oss
训练是一个利用大量数据不断进行模型修正和寻找最优解的过程。
III
5ACK实现GPU成本优化 最佳实践 前言
推理是利用已经训练完成的模型,进行推断或者预测的过程,例如识别一张图片
中的内容。
Arena是阿里云容器服务团队为AI任务运行在Kubernetes集群中提供的效率工
具,大大简化机器学习技术栈的部署、使用中的复杂性,把异构计算和云原生技术的
最佳实践通过友好的用户体验交付出来。Arena通过命令行工具,支持深度学习工作
流中模型开发,训练,推理服务等,并提供了KubernetesGPU集群管理运维能力。
Kubernetes生态中关注机器学习的重要项目Kubeflow社区已接受Arena项目。 详
见https://github.com/kubeflow/arena
IV
6ACK实现GPU成本优化 最佳实践 目录
目录
文档版本信息..................................................................................................................................................................I
.........................................................................................................................................................................
法律声明 II
前言................................................................................................................................................................................III
.................................................................................................................................................................................
目录 V
最佳实践概述.................................................................................................................................................................
1
前置条件.........................................................................................................................................................................2
................................................................................................................................................................
1.cGPU简介 3
2.创建ACK集群.........................................................................................................................................................4
......................................................................................................................................................
2.1.创建VPC 4
创建 集群............................................................................................................................................
2.2. ACK 8
3.安装arena应用.....................................................................................................................................................14
.............................................................................................................................................................
4.使用cGPU 20
4.1.给GPU节点打cGPU标签.....................................................................................................................20
........................................................................................................................................
4.2.安装cGPU组件 21
运行 示例........................................................................................................................................
4.3. cGPU 25
4.4.监控和隔离GPU资源..............................................................................................................................34
........................................................................................................................
4.5.结合弹性伸缩使用cGPU 52
4.5.1.创建弹性伸缩组............................................................................................................................52
..................................................................................................................
4.5.1.1.开通ESS服务 52
设置 权限和策略....................................................................................................
4.5.1.2. RAM 53
4.5.1.3.继续创建弹性伸缩组.......................................................................................................59
................................................................................................................
4.5.2.测试弹性伸缩组的使用 62
V
7ACK实现GPU成本优化 最佳实践 最佳实践概述
最佳实践概述
场景描述
利用阿里云容器服务ACK部署GPU集群之后,出于成本优化的考虑,对于集群中GPU
利用率不高的应用,比如推理的应用,建议利用阿里云cGPU技术将一定数量的应用跑到一
块GPU卡上,以提高利用率。对于GPU利用率比较高的应用,不做改动。这样可以实现灵
活管理的同时,降低整体成本。
本最佳实践通过一个实际的demo来演示如何建立ACK集群,使用cGPU来共享GPU。
系统架构
ACK调度器将多AI模型调度到同一GPU设备共享显存资源,GPU利用率成倍提升
按照显存的维度对于GPU进行切分
通过弹性伸缩GPU资源,为在线AI服务“削峰填谷”
使用Arena快速部署推理服务和管理资源
1
8ACK实现GPU成本优化 最佳实践 前置条件
前置条件
执行本文操作之前,请完成以下准备工作:
注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证页
面(https://account.console.aliyun.com/v2/#/authc/home)查看是否完成实名认
证。
阿里云账户余额大于10元。您可以登录阿里云控制台,并前往账户总览页面
(https://expense.console.aliyun.com/#/account/home)查看账户余额。
开通以下服务:
ᅳ 容器服务ACK
ᅳ GPU云服务器
ᅳ ARMS服务
ᅳ 专有网络VPC
cGPU使用条件:
ᅳ 标准专有GPU集群 1.16.6,不支持托管版GPU集群
ᅳ docker版本>=19.03.5
ᅳ 开通ARMS
ᅳ 主账号为arms-prometheus功能授权
ᅳ 支持GPU硬件:telsaP4、telsaP100、telsaT4 、telsav100(16GB)
2