BpFile(id=260, bpId=99, name=混合云使用Ali-Perseus, author=null, keyword=混合云,推理,训练,容器, description=混合云场景自建K8S集群使用Ali-Perseus提升训练和推理的性能, position=null, ossUrl=bp-BPD5IS4K4FF7A8V9.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
本文介绍了混合云场景中,自建
Kubernetes服务,线下集群+云上弹性扩
展阿里云GPU服务实例+飞天AI加速工
具,并采用阿里云CPFS存储,运行AI训
练+AI推理作业的操作步骤。
解决问题
1.利用云企业网打通两个地域的VPC,
自建Kubernetes集群
2.使用飞天AI加速工具运行训练和推理
作业
3.使用CPFS存储共享数据
产品列表
云企业网CEN
GPU云服务器
并行文件存储CPFS
文件存储NAS
, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)
1
混合云使用飞天 AI加速工具 最佳实践
部署架构图
场景描述
本文介绍了混合云场景中,自建
Kubernetes服务,线下集群+云上弹性扩
展阿里云 GPU服务实例+飞天 AI加速工
具,并采用阿里云 CPFS存储,运行 AI训
练+AI推理作业的操作步骤。
解决问题
1. 利用云企业网打通两个地域的 VPC,
自建 Kubernetes集群
2. 使用飞天 AI加速工具运行训练和推理
作业
3. 使用 CPFS存储共享数据
产品列表
云企业网 CEN
GPU云服务器
并行文件存储 CPFS
文件存储 NAS
文档版本:20191211
2文档模板(手册名称)/Error! Use the Home tab to apply
云服务器 ECS(产品名称) 标题 to the text that you want to appear here.
阿里云
企业上云实践
混合云使用飞天 AI加速工具
最佳实践
II
3混合云使用飞天AI加速工具 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 混合云使用飞天 AI加速工具最佳实践
文档编号 099
文档版本 V1.3
版本日期 2020/01/14
文档状态 发布
制作人 敬海
审阅人 云魁 期会
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2019/09/14 敬海 - 创建
V1.1 2019/09/26 筱晖 - 文档优化
V1.2 2019/12/11 敬海 - 增加首页概览页
V1.3 2020/01/14 敬海 - 更新架构图
I
4混合云使用飞天AI加速工具 前言
前言
概述
本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩展阿里云
GPU服务实例+飞天 AI加速工具加速框架,并采用阿里云 CPFS存储,运行 AI训
练+AI推理作业的操作步骤。
应用范围
适合混合云场景,自建 Kubernetes服务,线下集群+线上弹性 GPU云服务器实例
用于 AI训练和 AI推理的场景中。
名词解释
阿里云 CPFS:CPFS(Cloud Paralleled File System)是一种并行文件系统。
CPFS的数据存储在集群中的多个数据节点,多个客户端可以同时访问,为大
型高性能计算机集群提供高 IOPS、高吞吐、低时延的数据存储服务。随着高性
能并行计算的大规模商业化,传统并行文件系统正面临诸多挑战,如存储资源
急剧增长、成本高、运维管理复杂度大、大规模存储系统的稳定性以及性能无
法随规模进行线性扩展等。阿里云 CPFS应运而生。更多信息,请参考阿里云
CPFS介绍:(https://help.aliyun.com/document_detail/111755.html)
飞天 AI加速工具加速框架分为两个版本,一个用于加速 AI训练,一个用于加
速 AI推理。
飞天 AI加速工具训练框架是阿里云推出的统一分布式加速框架,支持主流的四
种训练框架,分别是 Tensorflow、Pytorch、MXNet、Caffe。
– 提供 Perseus Horovod的接口,分别支持 Tensorflow和 Pytorch。
– 提供 dist_sync_perseus的基于 allreduce的 kvstore module,支持
MXNet。
– 提供 BVLC Caffe的支持。
飞天 AI加速工具针对阿里云环境进行了深度优化,核心代码是多框架共享的,
各框架的支持均包含以下功能:
– 梯度融合通信的自适应多流,自适应梯度融合,对带宽密集的网络模型,
性能提升显著(提升 50%至 300%)。
III
5混合云使用飞天AI加速工具 前言
– 高度优化的梯度协商机制,将大规模节点下梯度协商的开销降低一到两个
数量级。
– 分级的 Allreduce,同时支持 FP16的梯度压缩,以及混合精度压缩。
– 训练过程中开启 NaN检查,报告 NaN来自于哪个梯度的计算(SM60及更
新平台支持)。
飞天 AI加速工具推理框架提供了统一的模型推理加速服务,目前支持三种深度
学习框架模型:TensorFlow、PyTorch和 Caffe2。Perseus Inference包含
Perseus Model Server和 Perseus Inference Client两个部分。
Perseus Model Server是服务端程序,负责加载模型并对外提供推理服务,支
持 HTTP/GRPC两种连接方式。Perseus Inference Client提供客户端 API接
口,应用程序调用这些接口去请求 Perseus Model Server的推理服务。
Perseus Inference目前提供容器的部署方式,它依赖于 CUDA10、CUDNN7
和 TensorRT5,用户需要在 NVIDIA GPU机器上安装 docker和 nvidia-docker
运行环境以满足 Perseus Inference容器的运行需求。
阿里云提供 perseus_inference容器镜像,包含了 server端和 client端的运行
环境,既可以当 server来部署,也可以当 client来部署。
Arena是阿里云容器服务团队为 AI任务运行在 Kubernetes集群中提供的效率工
具,大大简化机器学习技术栈的部署、使用中的复杂性,把异构计算和云原生技
术的最佳实践通过友好的用户体验交付出来。Arena通过命令行工具,支持深度
学习工作流中模型开发,训练,推理服务等,并提供了 Kubernetes GPU集群管
理运维能力。Kubernetes生态中关注机器学习的重要项目 Kubeflow社区已接受
Arena项目。 更多信息请参考 https://github.com/kubeflow/arena
IV
6混合云使用飞天AI加速工具 目录
目录
文档版本信息 ........................................................................................................................................ I
法律声明 ............................................................................................................................................... II
前言 ...................................................................................................................................................... III
目录 ....................................................................................................................................................... V
最佳实践概述 ........................................................................................................................................ 1
前置条件 ................................................................................................................................................ 3
资源规划 ................................................................................................................................................ 4
1. 创建专有网络 ................................................................................................................................. 5
1.1. 创建北京区域专有网络 vpc-beijing ............................................................................... 5
1.2. 创建上海区域专有网络 vpc-shanghai ............................................................................ 7
2. 创建云企业网实例 ....................................................................................................................... 10
3. 创建 ECS实例 ............................................................................................................................. 19
3.1. 创建 master节点 ............................................................................................................ 19
3.2. 创建 worker节点 ........................................................................................................... 27
3.3. 安全组设置 ..................................................................................................................... 30
4. 搭建 K8S集群 .............................................................................................................................. 33
4.1. 验证网络是否通 ............................................................................................................. 33
4.2. 配置/etc/hosts.................................................................................................................. 33
4.3. 配置 ssh无密码访问 ...................................................................................................... 33
4.4. Master节点配置 ............................................................................................................. 34
4.5. Woker节点配置 ............................................................................................................. 36
4.6. 安装 arena ....................................................................................................................... 40
4.7. 创建并配置 cpfs ............................................................................................................. 42
5. 部署训练任务 ............................................................................................................................... 46
下载数据 .................................................................................................................. 46
下载训练脚本 .......................................................................................................... 46
提交训练作业 .......................................................................................................... 49
6. 部署推理任务 ............................................................................................................................... 55
6.1. 创建共享存储 NAS ........................................................................................................ 55
6.2. 挂载 NAS ........................................................................................................................ 58
6.3. 拷贝模型文件 ................................................................................................................. 58
6.4. 创建 NAS pv和 pvc ....................................................................................................... 58
6.5. 创建推理服务 ................................................................................................................. 60
6.6. 创建推理客户端 ............................................................................................................. 61
6.7. 运行推理任务 ................................................................................................................. 62
V
7混合云使用飞天AI加速工具 最佳实践概述
最佳实践概述
AI数据处理流程
AI数据处理一般分为三个步骤,数据采集,清洗标注,模型训练,模型部署与推
理。
方案场景描述
在混合云场景中,可以自建 Kubernetes服务,线下集群+云上弹性扩展阿里云 GPU
服务实例+飞天 AI加速工具加速框架,并采用阿里云 CPFS存储,运行 AI训练+AI
推理作业的操作步骤。
方案架构
本方案使用了 gnv6机型的 GPU云服务器,客户可以根据自己的需求选择相应的
GPU云服务器实例类型。
并行文件系统 CPFS作为共享存储,提供高带宽低延迟的数据访问服务。
飞天 AI加速工具训练框架加速分布式训练,提升训练速度。
飞天 AI加速工具推理框架加速推理过程,提升推理性能。
系统架构图如下:
1
8混合云使用飞天AI加速工具 最佳实践概述
方案优势
GPU云服务器
计算能力强大,网络性能出色,众多实例类型。
购买灵活,付费灵活。
并行存储 CPFS
提供高带宽,高 IOPS的稳定存储服务。
支撑海量小图片访问。
飞天 AI加速工具
兼容 TF,Caffe,Pytorch,Mxnet等主流框架。
性能提升
2