Ctrl+F / Command+F 全文检索
客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 | 数据迁移 |

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版 数据总线 云速搭
中间件 |

介绍如何用 Serverless 应用引擎(SAE)帮助企业极速构建云上微服务应用

专有网络 VPC 负载均衡 SLB 应用实时监控服务 ARMS 云监控 Serverless 应用引擎
中间件 | 容器&微服务 |

Spring Cloud应用经过简单改造,迁移到云上企业级分布式应用服务(EDAS),利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=289, bpId=163, name=ACK实现GPU成本优化, author=null, keyword=ACK,GPU,共享GPU,容器,云原生, description=利用阿里云容器服务ACK部署GPU集群之后,出于成本优化的考虑,对于集群中GPU利用率不高的应用,比如推理的应用,建议利用阿里云cGPU技术将一定数量的应用跑到一块GPU卡上,以提高利用率。对于GPU利用率比较高的应用,不做改动。这样可以实现灵活管理的同时,降低整体成本。, position=null, ossUrl=bp-B78ZTDSRB7K4NJZ1.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 利用阿里云容器服务ACK部署GPU集群之后, 出于成本优化的考虑,对于集群中GPU利用率 不高的应用,比如推理的应用,建议利用阿里云 cGPU技术将一定数量的应用跑到一块GPU卡 上,以提高利用率。对于GPU利用率比较高的 应用,不做改动。这样可以实现灵活管理的同时, 降低整体成本。 解决问题 1.在ACK服务中实现共享GPU,灵活拆分 2.提高GPU利用率,降低TCO 3.应用无需修改,保障多个容器共享同一个 GPU时,彼此互相隔离 产品列表 ECS云服务器 GPU云服务器 容器服务ACK 专有网络VPC ARMS监控 ESS弹性扩容

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1ACK实现GPU成本优化 最佳实践 场景描述 架构图 利用阿里云容器服务ACK部署GPU 集群之后,出于成本优化的考虑,对 于集群中GPU利用率不高的应用, 比如推理的应用,建议利用阿里云 cGPU技术将一定数量的应用跑到一 块GPU卡上,以提高利用率。对于 GPU利用率比较高的应用,不做改 动。这样可以实现灵活管理的同时, 降低整体成本。 解决问题 1. 在ACK服务中实现共享GPU, 灵活拆分 2. 提高GPU利用率,降低TCO 3. 应用无需修改,保障多个容器共 享同一个GPU时,彼此互相隔 离 产品列表  ECS云服务器  GPU云服务器  容器服务ACK  专有网络VPC  ARMS监控 ESS弹性扩容 
2Z'z 文档模板(手册名称)/文档版本信息 阿里云 企业上云实践 ACK实现GPU成本优化 最佳实践 文档版本:20210119 文档版本:20150122(发布日期) 2
3ACK实现GPU成本优化 最佳实践 法律声明 文档版本信息 文本信息 属性 内容 文档名称 ACK实现GPU成本优化最佳实践 文档编号 163 文档版本 V1.1 版本日期 2021-01-19 文档状态 外部发布 制作人 敬海 审阅人 懿弘适己 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2020-07-01 敬海 懿弘适己 创建 V1.1 2021-01-19 敬海 修改yaml文件 I
4ACK实现GPU成本优化 最佳实践 前言 前言 概述 利用阿里云容器服务ACK部署GPU集群之后,出于成本优化的考虑,对于集群中 GPU利用率不高的应用,比如推理的应用,建议利用阿里云cGPU技术将一定数量 的应用跑到一块GPU卡上,以提高利用率。对于GPU利用率比较高的应用,不做 改动。这样可以实现灵活管理的同时,降低整体成本。 应用范围 在阿里云容器服务ACK中,利用cGPU技术,共享GPU算力,提高GPU利用率, 降低TCO。 名词解释  容器服务ACK:()提供高性能 可伸缩的容器应用管理服务,支持企业级Kubernetes容器化应用的生命周期管 理。容器服务ACK简化集群的搭建和扩容等运维工作,整合阿里云虚拟化、存 储、网络和安全能力,打造云端最佳的Kubernetes容器化应用运行环境。详见 https://help.aliyun.com/document_detail/86737.html  GPU云服务器:基于GPU应用的计算服务,多适用于AI深度学习,视频处理, 科学计算,图形可视化,等应用场景,型号有AMDS7150,NvidiaM40,Nvidia P100,NvidiaP4,NvidiaV100,阿里云成为中国首家与NGCGPU加速容器合 作的云厂商。详见https://cn.aliyun.com/product/ecs/gpu  NAS:阿里云文件存储(NAS)NetworkAttachedStorage是一种分布式的网络 文件存储,为ECS、HPC、FC等提供安全、无限容量、高性能、高可靠、简单 易用的文件存储服务。FC与NAS无缝集成。这使您的函数可以像访问本地文件 系统一样编写访问存储在其中一个NAS文件系统上的文件。详见 https://cn.aliyun.com/product/nas  对象存储OSS:海量、安全、低成本、高可靠的云存储服务,提供99.9999999999% 的数据可靠性。使用RESTfulAPI 可以在互联网任何位置存储和访问,容量和 处理能力弹性扩展,多种存储类型供选择全面优化存储成本。详见 https://www.aliyun.com/product/oss  训练是一个利用大量数据不断进行模型修正和寻找最优解的过程。 III
5ACK实现GPU成本优化 最佳实践 前言  推理是利用已经训练完成的模型,进行推断或者预测的过程,例如识别一张图片 中的内容。  Arena是阿里云容器服务团队为AI任务运行在Kubernetes集群中提供的效率工 具,大大简化机器学习技术栈的部署、使用中的复杂性,把异构计算和云原生技术的 最佳实践通过友好的用户体验交付出来。Arena通过命令行工具,支持深度学习工作 流中模型开发,训练,推理服务等,并提供了KubernetesGPU集群管理运维能力。 Kubernetes生态中关注机器学习的重要项目Kubeflow社区已接受Arena项目。 详 见https://github.com/kubeflow/arena IV
6ACK实现GPU成本优化 最佳实践 目录 目录 文档版本信息..................................................................................................................................................................I ......................................................................................................................................................................... 法律声明 II 前言................................................................................................................................................................................III ................................................................................................................................................................................. 目录 V 最佳实践概述................................................................................................................................................................. 1 前置条件.........................................................................................................................................................................2 ................................................................................................................................................................ 1.cGPU简介 3 2.创建ACK集群.........................................................................................................................................................4 ...................................................................................................................................................... 2.1.创建VPC 4 创建 集群............................................................................................................................................ 2.2. ACK 8 3.安装arena应用.....................................................................................................................................................14 ............................................................................................................................................................. 4.使用cGPU 20 4.1.给GPU节点打cGPU标签.....................................................................................................................20 ........................................................................................................................................ 4.2.安装cGPU组件 21 运行 示例........................................................................................................................................ 4.3. cGPU 25 4.4.监控和隔离GPU资源..............................................................................................................................34 ........................................................................................................................ 4.5.结合弹性伸缩使用cGPU 52 4.5.1.创建弹性伸缩组............................................................................................................................52 .................................................................................................................. 4.5.1.1.开通ESS服务 52 设置 权限和策略.................................................................................................... 4.5.1.2. RAM 53 4.5.1.3.继续创建弹性伸缩组.......................................................................................................59 ................................................................................................................ 4.5.2.测试弹性伸缩组的使用 62 V
7ACK实现GPU成本优化 最佳实践 最佳实践概述 最佳实践概述 场景描述 利用阿里云容器服务ACK部署GPU集群之后,出于成本优化的考虑,对于集群中GPU 利用率不高的应用,比如推理的应用,建议利用阿里云cGPU技术将一定数量的应用跑到一 块GPU卡上,以提高利用率。对于GPU利用率比较高的应用,不做改动。这样可以实现灵 活管理的同时,降低整体成本。 本最佳实践通过一个实际的demo来演示如何建立ACK集群,使用cGPU来共享GPU。 系统架构  ACK调度器将多AI模型调度到同一GPU设备共享显存资源,GPU利用率成倍提升  按照显存的维度对于GPU进行切分  通过弹性伸缩GPU资源,为在线AI服务“削峰填谷”  使用Arena快速部署推理服务和管理资源 1
8ACK实现GPU成本优化 最佳实践 前置条件 前置条件 执行本文操作之前,请完成以下准备工作:  注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证页 面(https://account.console.aliyun.com/v2/#/authc/home)查看是否完成实名认 证。  阿里云账户余额大于10元。您可以登录阿里云控制台,并前往账户总览页面 (https://expense.console.aliyun.com/#/account/home)查看账户余额。  开通以下服务: ᅳ 容器服务ACK ᅳ GPU云服务器 ᅳ ARMS服务 ᅳ 专有网络VPC  cGPU使用条件: ᅳ 标准专有GPU集群 1.16.6,不支持托管版GPU集群 ᅳ docker版本>=19.03.5 ᅳ 开通ARMS ᅳ 主账号为arms-prometheus功能授权 ᅳ 支持GPU硬件:telsaP4、telsaP100、telsaT4 、telsav100(16GB) 2