BpFile(id=316, bpId=175, name=FastGPU极速AI训练/推理, author=null, keyword=FastGPU,GPU,AI,极速,训练,推理, description=利用FastGPU工具一键构建阿里云上的AI训练/推理环境,并使用AIACC加速工具进行加速。, position=null, ossUrl=bp-67JNF0W4V250J3MF.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
利用FastGPU工具一键构建阿里云上的AI训练/推理环境,并使用AIACC加速工具进行加速。
, templateId=null, freetry=, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)
1FastGPU极速AI训练/推理 最佳实践
场景描述
利用FastGPU工具一键构建阿里云上的
架构图
AI训练/推理环境,并使用AIACC加速工
具进行加速。目前,FastGPU提供了三
个demo,分别是
GTC-demo,Pytorch手势识别训练
InsightFace,Mxnet人脸识别训练
Bert模型,Tensorflow语音识别训
练
解决问题
1. 快速构建AI训练推理环境
2. 快速进行AIPOC性能测试
产品列表
GPU云服务器
文件存储NAS(CPFS)
对象存储OSS
专有网络VPC
2云服务器ECS(产品名称) 文档模板(手册名称)/文档版本信息
阿里云
企业上云实践
FastGPU极速AI训练/推理
最佳实践
文档版本:2021015
文档版本:20150122(发布日期) 2
3FastGPU极速AI训练/推理 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 FastGPU极速AI训练/推理
文档编号 175
文档版本 V1.2
版本日期 2021-01-15
文档状态 外部发布
制作人 敬海、弦望
审阅人 弦望、昭泰
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2020-03-27 敬海 弦望、昭泰 创建
V1.1 2020-10-15 弦望 文档优化并增加使用CPFS
V1.2 2020-01-15 敬海 更新几处问题
I
4FastGPU极速AI推理 前言
前言
概述
利用FastGPU工具一键构建阿里云上的AI训练/推理环境,并使用AIACC加速工具
进行加速。目前,FastGPU提供了三个demo,分别是
GTC-demo,Pytorch 手势识别训练
InsightFace,Mxnet 人脸识别训练
Bert模型,Tensorflow语音识别训练
应用范围
在阿里云上一键构建AI测试环境
名词解释
FastGPU是⼀套构建在阿⾥云上的⼈⼯智能计算极速部署⼯具,其提供便捷的接
⼝和⾃动⼯具实现⼈⼯智能训练/推理计算在阿⾥云IAAS资源上的快速部署。
FastGPU提供两套组件:
ncluster 运⾏时组件提供便捷的api将线下的⼈⼯智能训练/推理脚本快速的部
署在阿⾥云IAAS资源上进⾏计算。
ecluster命令⾏组件提供便捷的命令⾏⼯具⽤于管理阿⾥云上⼈⼯智能计算的运
⾏状态和集群的⽣命周期。
GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习,视频处理,科
学计算,图形可视化,等应用场景,型号有AMDS7150,NvidiaM40,Nvidia
P100,NvidiaP4,NvidiaV100,阿里云成为中国首家与NGCGPU加速容器合
作的云厂商。详见https://cn.aliyun.com/product/ecs/gpu
NAS:阿里云文件存储(NAS)NetworkAttachedStorage是一种分布式的网络文
件存储,为ECS、HPC、FC等提供安全、无限容量、高性能、高可靠、简单易
用的文件存储服务。FC与NAS无缝集成。这使您的函数可以像访问本地文件系
统一样编写访问存储在其中一个 NAS 文件系统上的文件。详见
https://cn.aliyun.com/product/nas
对象存储OSS:海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%
的数据可靠性。使用RESTfulAPI 可以在互联网任何位置存储和访问,容量和
III
5FastGPU极速AI推理 前言
处理能力弹性扩展,多种存储类型供选择全面优化存储成本。详见
https://www.aliyun.com/product/oss
IV
6FastGPU极速AI推理 目录
目录
文档版本信息..................................................................................................................................................................I
.........................................................................................................................................................................
法律声明 II
前言................................................................................................................................................................................III
.................................................................................................................................................................................
目录 V
最佳实践概述.................................................................................................................................................................
1
前置条件.........................................................................................................................................................................2
...........................................................................................................................................................
1.FastGPU简介 3
2.FastGPU使用说明...................................................................................................................................................5
..................................................................................................................................
2.1.FastGPU的安装方法 5
的 .......................................................................................................................................
2.2.FastGPU demo 5
3.运行Bert模型训练demo......................................................................................................................................7
....................................................................................................................................................
4.运行GTCdemo 18
4.1.简介.............................................................................................................................................................18
..................................................................................................................
4.2.创建一台ECS作为开发环境 18
创建主账号 和 ...............................................................................................................................
4.3. AK SK 18
4.4.安装Anaconda.........................................................................................................................................20
...........................................................................................................
4.5.运行GTCdemo(数据在云盘) 22
4.6.运行GTCdemo(数据在CPFS)........................................................................................................26
........................................................................................................................................
5.运行InsightFacedemo 36
开发者实验室.........................................................................................................................................................
6. 39
7.附录.........................................................................................................................................................................40
V
7FastGPU极速AI推理 最佳实践概述
最佳实践概述
场景描述
利用FastGPU工具一键构建阿里云上的AI训练/推理环境,并使用AIACC加速工具
进行加速。目前,FastGPU提供了三个demo,分别是
GTC-demo,imagenet 图片训练,PyTorch框
InsightFace,Mxnet 人脸识别训练
Bert模型,Tensorflow语音识别训练
系统架构
大致分成4个步骤:
• 在开发环境/Clustershell定制FastGPU相关参数
• 根据配置拉起环境
• 训练测试完毕,保存结果
• 销毁环境,释放资源
1
8FastGPU极速AI推理 前置条件
前置条件
执行本文操作之前,请完成以下准备工作:
注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证页
面(https://account.console.aliyun.com/v2/#/authc/home)查看是否完成实名认
证。
阿里云账户余额大于10元。您可以登录阿里云控制台,并前往账户总览页面
(https://expense.console.aliyun.com/#/account/home)查看账户余额。
开通以下服务:
ᅳ GPU云服务器
ᅳ 文件存储NAS(或者CPFS)
ᅳ 专有网络VPC
ᅳ 对象存储OSS
2