相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=249, bpId=13, name=GPU AI模型训练, author=null, keyword=GPU,AI训练,容器服务Kubernete版,深度学习,图片训练, description=本方案适用于AI图片训练场景,使用NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。, position=null, ossUrl=bp-V9MW0K3AXFNLIREG.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

本方案适用于AI图片训练场景,使用NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。

, templateId=FJ9N98WN6NY1RUC2, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=FJ9N98WN6NY1RUC2, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)
1GPUAI模型训练 最佳实践 部署架构图 场景描述 本方案适用于AI图片训练场景,使用NAS作 为共享存储,利用容器服务Kubernetes版管 理GPU云服务器集群进行图片AI训练。 解决问题 1. 搭建AI图片训练基础环境。 2. 使用CPFS存储训练数据 3. 使用飞天AI加速训练服务加速训练 4. 使用Arena一键提交作业 产品列表  容器服务ACK  CPFS/NAS  GPU云服务器  云速搭CADT
2云服务器ECS(产品名称) 文档模板(手册名称)/文档版本信息 阿里云 企业上云实践 GPUAI模型训练最佳实践 文档版本:20210825(发布日期)
3企业上云实践 GPUAI模型训练最佳实践 文档版本信息 文本信息 属性 内容 文档名称 GPUAI模型训练最佳实践 文档编号 013 文档版本 V2.0 版本日期 2021-08-25 文档状态 外部发布 制作人 敬海 审阅人 弦望云滴 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 20190304 敬海 弦望,游圣 根据审核人的意见进行了修改和 完善了部分细节。 1. 更新arena工具介绍和使用 V1.1 20190307 敬海 必嘫,宁吉 2. 修改挂载方式为pvc管理挂载 方式。 1.增加cpfs部分内容 2.增加在容器集群添加已有节点 1.优化文章结构 v1.2 20190412 敬海 2.增加cpfsclient 安装脚本,完 善cpfs部分内容,优化pvc挂载 方式,增加实例。 v1.3 20190506 敬海 蜚廉 1.修改字体,增加脚本文件 V1.4 20190614 敬海 更换模板
4企业上云实践 GPUAI模型训练最佳实践 V1.5 20190827 敬海 增加最佳实践概述,更换模板 V1.6 20191025 敬海 更新cpfs部分 V1.7 20191203 敬海 云滴 更新文章结构,修改细节问题 V1.8 20200317 敬海 毕役 产品更新 V2.0 20210825 敬海 增加cadt,并全面更新产品使用方 法
5企业上云实践 GPUAI模型训练最佳实践 前言 概述 本文介绍了使用阿里云的容器服务ACK搭建AI训练环境的最佳实践。 应用范围 使用阿里云的容器服务ACK在云上搭建AI训练环境。 名词解释 CPFS(CloudParalleledFileSystem)是一种并行文件系统。CPFS 的数据存储 在集群中的多个数据节点,多个客户端可以同时访问,为大型高性能计算机集群 提供高IOPS、高吞吐、低时延的数据存储服务。随着高性能并行计算的大规模 商业化,传统并行文件系统正面临诸多挑战,如存储资源急剧增长、成本高、运 维管理复杂度大、大规模存储系统的稳定性以及性能无法随规模进行线性扩展 等。详见https://www.aliyun.com/product/nas_cpfs GPU云服务器GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学 习,视频处理,科学计算,图形可视化,等应用场景,型号有AMDS7150,Nvidia M40,NvidiaP100,NvidiaP4,NvidiaV100。阿里云成为中国首家与NGCGPU 加速容器合作的云厂商。详见https://www.aliyun.com/product/ecs/gpu 训练是一个利用大量数据不断进行模型修正和寻找最优解的过程。 容器服务ACK:提供高性能可伸缩的容器应用管理服务,支持企业级Kubernetes 容器化应用的生命周期管理。容器服务Kubernetes版简化集群的搭建和扩容等 运维工作,整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳的 Kubernetes容器化应用运行环境。阿里云容器服务是全球首批通过Kubernetes 一致性认证的云平台服务,也是Kubernetes认证服务供应商,可以为您提供专 业的容器支持和服务。详见https://help.aliyun.com/document_detail/86737.html 飞天AI加速训练工具是阿里云推出的统一分布式加速框架,支持主流的四种训练 框架,分别是Tensorflow、Pytorch、MXNet、Caffe。提供PerseusHorovod的 接口,分别支持Tensorflow和Pytorch。提供dist_sync_perseus的基于allreduce 的kvstoremodule,支持MXNet。提供BVLCCaffe的支持。飞天AI加速训练 工具针对阿里云环境进行了深度优化,核心代码是多框架共享的,各框架的支持 均包含以下功能:梯度融合通信的自适应多流,自适应梯度融合,对带宽密集的 II
6企业上云实践 GPUAI模型训练最佳实践 网络模型,性能提升显著(提升50%至300%)。高度优化的梯度协商机制,将 大规模节点下梯度协商的开销降低一到两个数量级。分级的Allreduce,同时支 持FP16的梯度压缩,以及混合精度压缩。训练过程中开启NaN检查,报告NaN 来自于哪个梯度的计算(SM60及更新平台支持)。 Arena是阿里云容器服务团队为AI任务运行在Kubernetes集群中提供的效率工 具,大大简化机器学习技术栈的部署、使用中的复杂性,把异构计算和云原生技 术的最佳实践通过友好的用户体验交付出来。Arena通过命令行工具,支持深度 学习工作流中模型开发,训练,推理服务等,并提供了KubernetesGPU集群管 理运维能力。Kubernetes生态中关注机器学习的重要项目Kubeflow社区已接受 Arena项目。详见https://github.com/kubeflow/arena 云速搭CADT,是一款为上云应用提供自助式云架构管理的产品,显著地降低应用 云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板,同时也支持 自助拖拽方式定义应用云上架构;支持较多阿里云服务的配置和管理。用户可以 方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。详见 https://www.aliyun.com/product/developerservices/cadt III
7企业上云实践 GPUAI模型训练最佳实践 目录 ......................................................................................................................................... 文档版本信息 I ................................................................................................................................................. 法律声明 I 前言.......................................................................................................................................................II ...................................................................................................................................................... 目录 IV 最佳实践概述........................................................................................................................................1 ................................................................................................................................................ 前置条件 4 ................................................................................................................................... 1.开发工具准备 5 1.1.SSH工具.................................................................................................................................5 ................................................................................................................................... 2.搭建基础环境 7 2.1.开通产品及服务....................................................................................................................7 .................................................................................................... 2.2.利用CADT构建基础环境 8 ...................................................................................... 3.下载imagenet训练集和demo训练脚本 13 3.1.获取ECS实例公网IP并登陆............................................................................................13 ................................................................................................................ 3.2.挂载共享存储nas 13 3.3.修改nas权限组为整个vpc都可以挂载...........................................................................15 .......................................................................................................... 3.4.下载Imagenet训练集 16 ...................................................................................................................... 3.5.转换数据格式 17 3.5.1.安装转换工具和脚本...............................................................................................18 ......................................................................... 3.5.2.预处理ILSVRC2012_img_val数据 19 3.5.3.预处理ILSVRC2012boudingbox数据....................................................................20 .................................. 3.5.4.转换ILSVRC2012_img_train和val数据集为tfrecord格式 21 .................................................................................................................... 3.6.下载demo脚本 22 4.ACK容器集群挂载存储.................................................................................................................23 5.部署Arena工具.............................................................................................................................26 ........................................................................................................... 5.1.部署arena服务器端 26 ............................................................................................................... 5.2.部署arena客户端 28 6.运行demo示例...............................................................................................................................33 ...................................................................................................................... 6.1.运行训练脚本 33 6.1.1.构建环境...................................................................................................................33 ................................................................................................................... 6.1.2.修改脚本 35 ................................................................................................................... 6.1.3.脚本解析 36 6.1.4.运行任务准备...........................................................................................................38 ................................................................................................... 6.1.5.运行单机训练任务 40 6.2.运行多机训练任务:..........................................................................................................43 .......................................................................................................... 6.3.跑一个验证的作业: 46 ......................................................................................................................... 7.将数据归档到OSS 49 7.1.创建一个ram账号并授权..................................................................................................49 .................................................................................................................. 7.2.配置ossutil工具 51 7.3.上传备份文件......................................................................................................................52 IV
8企业上云实践 GPUAI模型训练最佳实践 最佳实践概述 AI数据处理流程 场景描述 通常AI数据处理分为,数据采集,数据清洗,数据标注,模型训练,模型部署,推理等 场景。本方案适用于AI训练场景,比如自动驾驶的模型训练(图片),自然语言处理的模型 训练(语音)等各种AI模型训练的场景。在训练的场景中,计算部分通常使用GPU来进行, 通常多台GPU服务器会协同来完成同一个任务,因此存储一般采用共享存储。 阿里云飞天AI加速服务 基于阿里云弹性基础资源,为用户提供性能极致优化、轻量便捷、开源开放的人工智能最佳实 践。 1