Ctrl+F / Command+F 全文检索
客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 | 数据迁移 |

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版 数据总线 云速搭
中间件 | 容器&微服务 |

Spring Cloud应用经过简单改造,迁移到云上企业级分布式应用服务(EDAS),利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS
中间件 |

介绍如何用 Serverless 应用引擎(SAE)帮助企业极速构建云上微服务应用

专有网络 VPC 负载均衡 SLB 应用实时监控服务 ARMS 云监控 Serverless 应用引擎
业务上云 | 数据库 |

使用Oracle数据库的应用上云,通过ADAM评分、改造、迁移实现数据库迁移到PolarDB(Oracle兼容版),应用访问

专有网络 VPC 云服务器ECS 云数据库PolarDB 数据库和应用迁移 ADAM

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=260, bpId=99, name=混合云使用Ali-Perseus, author=null, keyword=混合云,推理,训练,容器, description=混合云场景自建K8S集群使用Ali-Perseus提升训练和推理的性能, position=null, ossUrl=bp-86KZTO68DYH73MPB.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云GPU服务实例+飞天AI加速工 具,并采用阿里云CPFS存储,运行AI训 练+AI推理作业的操作步骤。 解决问题 1.利用云企业网打通两个地域的VPC, 自建Kubernetes集群 2.使用飞天AI加速工具运行训练和推理 作业 3.使用CPFS存储共享数据 产品列表 云企业网CEN GPU云服务器 并行文件存储CPFS 文件存储NAS, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 混合云使用飞天 AI加速工具 最佳实践 部署架构图 场景描述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩 展阿里云 GPU服务实例+飞天 AI加速工 具,并采用阿里云 CPFS存储,运行 AI训 练+AI推理作业的操作步骤。 解决问题 1. 利用云企业网打通两个地域的 VPC, 自建 Kubernetes集群 2. 使用飞天 AI加速工具运行训练和推理 作业 3. 使用 CPFS存储共享数据 产品列表 云企业网 CEN GPU云服务器 并行文件存储 CPFS 文件存储 NAS 文档版本:20191211
2文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 阿里云 企业上云实践 混合云使用飞天 AI加速工具 最佳实践 II
3混合云使用飞天AI加速工具 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 混合云使用飞天 AI加速工具最佳实践 文档编号 099 文档版本 V1.3 版本日期 2020/01/14 文档状态 发布 制作人 敬海 审阅人 云魁 期会 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019/09/14 敬海 - 创建 V1.1 2019/09/26 筱晖 - 文档优化 V1.2 2019/12/11 敬海 - 增加首页概览页 V1.3 2020/01/14 敬海 - 更新架构图 I
4混合云使用飞天AI加速工具 前言 前言 概述 本文介绍了混合云场景中,自建 Kubernetes服务,线下集群+云上弹性扩展阿里云 GPU服务实例+飞天 AI加速工具加速框架,并采用阿里云 CPFS存储,运行 AI训 练+AI推理作业的操作步骤。 应用范围 适合混合云场景,自建 Kubernetes服务,线下集群+线上弹性 GPU云服务器实例 用于 AI训练和 AI推理的场景中。 名词解释 阿里云 CPFS:CPFS(Cloud Paralleled File System)是一种并行文件系统。 CPFS的数据存储在集群中的多个数据节点,多个客户端可以同时访问,为大 型高性能计算机集群提供高 IOPS、高吞吐、低时延的数据存储服务。随着高性 能并行计算的大规模商业化,传统并行文件系统正面临诸多挑战,如存储资源 急剧增长、成本高、运维管理复杂度大、大规模存储系统的稳定性以及性能无 法随规模进行线性扩展等。阿里云 CPFS应运而生。更多信息,请参考阿里云 CPFS介绍:(https://help.aliyun.com/document_detail/111755.html) 飞天 AI加速工具加速框架分为两个版本,一个用于加速 AI训练,一个用于加 速 AI推理。 飞天 AI加速工具训练框架是阿里云推出的统一分布式加速框架,支持主流的四 种训练框架,分别是 Tensorflow、Pytorch、MXNet、Caffe。 – 提供 Perseus Horovod的接口,分别支持 Tensorflow和 Pytorch。 – 提供 dist_sync_perseus的基于 allreduce的 kvstore module,支持 MXNet。 – 提供 BVLC Caffe的支持。 飞天 AI加速工具针对阿里云环境进行了深度优化,核心代码是多框架共享的, 各框架的支持均包含以下功能: – 梯度融合通信的自适应多流,自适应梯度融合,对带宽密集的网络模型, 性能提升显著(提升 50%至 300%)。 III
5混合云使用飞天AI加速工具 前言 – 高度优化的梯度协商机制,将大规模节点下梯度协商的开销降低一到两个 数量级。 – 分级的 Allreduce,同时支持 FP16的梯度压缩,以及混合精度压缩。 – 训练过程中开启 NaN检查,报告 NaN来自于哪个梯度的计算(SM60及更 新平台支持)。 飞天 AI加速工具推理框架提供了统一的模型推理加速服务,目前支持三种深度 学习框架模型:TensorFlow、PyTorch和 Caffe2。Perseus Inference包含 Perseus Model Server和 Perseus Inference Client两个部分。 Perseus Model Server是服务端程序,负责加载模型并对外提供推理服务,支 持 HTTP/GRPC两种连接方式。Perseus Inference Client提供客户端 API接 口,应用程序调用这些接口去请求 Perseus Model Server的推理服务。 Perseus Inference目前提供容器的部署方式,它依赖于 CUDA10、CUDNN7 和 TensorRT5,用户需要在 NVIDIA GPU机器上安装 docker和 nvidia-docker 运行环境以满足 Perseus Inference容器的运行需求。 阿里云提供 perseus_inference容器镜像,包含了 server端和 client端的运行 环境,既可以当 server来部署,也可以当 client来部署。 Arena是阿里云容器服务团队为 AI任务运行在 Kubernetes集群中提供的效率工 具,大大简化机器学习技术栈的部署、使用中的复杂性,把异构计算和云原生技 术的最佳实践通过友好的用户体验交付出来。Arena通过命令行工具,支持深度 学习工作流中模型开发,训练,推理服务等,并提供了 Kubernetes GPU集群管 理运维能力。Kubernetes生态中关注机器学习的重要项目 Kubeflow社区已接受 Arena项目。 更多信息请参考 https://github.com/kubeflow/arena IV
6混合云使用飞天AI加速工具 目录 目录 文档版本信息 ........................................................................................................................................ I 法律声明 ............................................................................................................................................... II 前言 ...................................................................................................................................................... III 目录 ....................................................................................................................................................... V 最佳实践概述 ........................................................................................................................................ 1 前置条件 ................................................................................................................................................ 3 资源规划 ................................................................................................................................................ 4 1. 创建专有网络 ................................................................................................................................. 5 1.1. 创建北京区域专有网络 vpc-beijing ............................................................................... 5 1.2. 创建上海区域专有网络 vpc-shanghai ............................................................................ 7 2. 创建云企业网实例 ....................................................................................................................... 10 3. 创建 ECS实例 ............................................................................................................................. 19 3.1. 创建 master节点 ............................................................................................................ 19 3.2. 创建 worker节点 ........................................................................................................... 27 3.3. 安全组设置 ..................................................................................................................... 30 4. 搭建 K8S集群 .............................................................................................................................. 33 4.1. 验证网络是否通 ............................................................................................................. 33 4.2. 配置/etc/hosts.................................................................................................................. 33 4.3. 配置 ssh无密码访问 ...................................................................................................... 33 4.4. Master节点配置 ............................................................................................................. 34 4.5. Woker节点配置 ............................................................................................................. 36 4.6. 安装 arena ....................................................................................................................... 40 4.7. 创建并配置 cpfs ............................................................................................................. 42 5. 部署训练任务 ............................................................................................................................... 46 下载数据 .................................................................................................................. 46 下载训练脚本 .......................................................................................................... 46 提交训练作业 .......................................................................................................... 49 6. 部署推理任务 ............................................................................................................................... 55 6.1. 创建共享存储 NAS ........................................................................................................ 55 6.2. 挂载 NAS ........................................................................................................................ 58 6.3. 拷贝模型文件 ................................................................................................................. 58 6.4. 创建 NAS pv和 pvc ....................................................................................................... 58 6.5. 创建推理服务 ................................................................................................................. 60 6.6. 创建推理客户端 ............................................................................................................. 61 6.7. 运行推理任务 ................................................................................................................. 62 V
7混合云使用飞天AI加速工具 最佳实践概述 最佳实践概述 AI数据处理流程 AI数据处理一般分为三个步骤,数据采集,清洗标注,模型训练,模型部署与推 理。 方案场景描述 在混合云场景中,可以自建 Kubernetes服务,线下集群+云上弹性扩展阿里云 GPU 服务实例+飞天 AI加速工具加速框架,并采用阿里云 CPFS存储,运行 AI训练+AI 推理作业的操作步骤。 方案架构 本方案使用了 gnv6机型的 GPU云服务器,客户可以根据自己的需求选择相应的 GPU云服务器实例类型。 并行文件系统 CPFS作为共享存储,提供高带宽低延迟的数据访问服务。 飞天 AI加速工具训练框架加速分布式训练,提升训练速度。 飞天 AI加速工具推理框架加速推理过程,提升推理性能。 系统架构图如下: 1
8混合云使用飞天AI加速工具 最佳实践概述 方案优势 GPU云服务器 计算能力强大,网络性能出色,众多实例类型。 购买灵活,付费灵活。 并行存储 CPFS 提供高带宽,高 IOPS的稳定存储服务。 支撑海量小图片访问。 飞天 AI加速工具 兼容 TF,Caffe,Pytorch,Mxnet等主流框架。 性能提升 2