Ctrl+F / Command+F 全文检索

相关产品

客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 | 数据迁移 |

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版 数据总线 云速搭
中间件 | 容器&微服务 |

Spring Cloud应用经过简单改造,迁移到云上企业级分布式应用服务(EDAS),利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS
中间件 |

介绍如何用 Serverless 应用引擎(SAE)帮助企业极速构建云上微服务应用

专有网络 VPC 负载均衡 SLB 应用实时监控服务 ARMS 云监控 Serverless 应用引擎
业务上云 | 数据库 |

使用Oracle数据库的应用上云,通过ADAM评分、改造、迁移实现数据库迁移到PolarDB(Oracle兼容版),应用访问

专有网络 VPC 云服务器ECS 云数据库PolarDB 数据库和应用迁移 ADAM

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=185, bpId=80, name=超级计算集群结合ACK实现NLP训练, author=null, keyword=NLP,Bert,AI训练, description=使用裸金属GPU服务器、RDMA网络、CPFS和Perseus框架搭建容器化NLP训练环境。, position=null, ossUrl=bp-6RUL2257BOIM25SZ.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 本方案适用于自然语言处理的训练场景,使 用神龙GPU云服务器(SCCGN6)+NAS极速型+ 容器服务Kubernetes版(ACK)进行NLP 的训练,采用Bert模型,使用飞天AI加速训 练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙+ACK搭建NLP训练环境。 使用SCC的RDMA网络 使用文件存储NAS极速型训练数据 使用飞天AI加速训练工具加速训练 产品列表 神龙GPU云服务器(SCCGN6) 容器服务Kubernetes版(ACK) SCC超级计算集群 文件存储 NAS

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 超级计算集群结合 ACK 快速实现 NLP 训练 最佳实践 部署架构图 场景描述 本方案适用于自然语言处理的训练场景,使 用神龙 GPU 云服务器(SCCGN6)+极速 型 NAS+容器服务 Kubernetes 版(ACK) 进行 NLP 的训练,采用 Bert 模型,使用飞 天 AI 加速训练工具可以有效提升多机多卡 的训练效率。 解决问题 l 使用神龙+ACK 搭建 NLP 训练环境 l 使用 SCC 的 RDMA 网络 l 使用极速型 NAS 存储训练数据 l 使用飞天 AI 加速训练工具加速训练 产品列表 l 神龙 GPU 云服务器(SCCGN6) l 容器服务 Kubernetes 版(ACK) l SCC 超级计算集群 l 文件存储 NAS 极速型
2云服务器 ECS(产品名称) 文档模板(手册名称)/文档版本信息 阿里云 企业上云实践 超级计算集群结合 ACK 快速实现 NLP 训练 文档版本:20210311 2
3超级计算集群结合 ACK 快速实现 NLP 训练 【公开|阿里巴巴集团保密信息|普通商秘|核心商秘】 文档版本信息 文本信息 属性 内容 文档名称 超级计算集群结合 ACK 快速实现 NLP 训练 文档编号 080 文档版本 V1.5 版本日期 2021-03-11 文档状态 外部发布 制作人 谈慧杰、敬海、行夜 审阅人 谈慧杰、行夜 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019-07-25 敬海、行夜、阿谈 创建 V1.1 2019-08-09 张明远 文档优化 V1.2 2019-11-20 敬海 增加首页概览页 V1.3 2019-12-09 敬海 内容更新 V1.4 2020-01-14 敬海 更新架构图 V1.5 2021-03-11 谈慧杰 存储及 ACK 集群更新 I
4超级计算集群结合 ACK 快速实现 NLP 训练 前言 前言 概述 本文介绍基于阿里云 SCC 超级计算集群,结合阿里云容器服务 Kubernetes 版,采用极速型 NAS 存储,搭建容器化 NLP 训练环境。 名词解释 l EBM:弹性裸金属服务器(ECS Bare Metal Instance) ,弹性裸金属服务器是一款同时兼 具虚拟机弹性和物理机性能及特性的新型计算类产品,是基于阿里云完全自主研发的下一 代虚拟化技术而打造的新型计算类服务器产品。 l SCC:超级计算集群(Super Computing Cluster) ,在弹性裸金属服务器基础上,加入高 速 RDMA(Remote Direct Memory Access)互联支持,大幅提升网络性能,提高大规模 集群加速比。因此 SCC 在提供高带宽、低延迟优质网络的同时,还具备弹性裸金属服务 器的所有优点。SCC 主要用于高性能计算和人工智能/机器学习、科学/工程计算、数据分 析、音视频处理等应用场景。在集群内,各节点间通过 RDMA 网络互联,提供高带宽低延 迟网络,保证了高性能计算和人工智能/机器学习等应用的高度并行需求。同时 RoCE (RDMA over Convergent Ethernet)网络速度达到 InfiniBand 网络级的性能,且能支持 更广泛的基于 Ethernet 的应用。 l 容器服务:容器服务(Container Service)提供了高性能可伸缩的容器应用管理服务,支 持在一组云服务器上通过 Docker 容器来进行应用生命周期管理。 容器服务极大地简化了 用户对容器管理集群的搭建工作,无缝整合了阿里云虚拟化、存储、网络和安全能力,打 造 Docker 云端最优化的运行环境。 容器服务提供了多种应用发布方式和流水线般的持续 交付能力,原生支持微服务架构,助力用户无缝上云和跨云管理。 l 容器服务 Kubernetes 版:容器服务 Kubernetes 版(Container Service for Kubernetes) 提供高性能可伸缩的容器应用管理服务,支持企业级 Kubernetes 容器化应用的生命周期 管理。 l 文件存储 NAS:是一个可共享访问,弹性扩展,高可靠,高性能的分布式文件系统。广泛 应用于容器存储、大数据分析、Web 服务和内容管理、应用程序开发和测试、媒体和娱乐 工作流程、数据库备份。 l VPC:专有网络(Virtual Private Cloud) ,是用户基于阿里云创建的自定义私有网络, 不同 的专有网络之间二层逻辑隔离,用户可以在自己创建的专有网络内创建和管理云产品实例, 比如 ECS、负载均衡、RDS 等。 III
5超级计算集群结合 ACK 快速实现 NLP 训练 目录 目录 文档版本信息 .............................................................................................................................................................. I 法律声明 ..................................................................................................................................................................... II 前言 ............................................................................................................................................................................ III 目录 ........................................................................................................................................................................... IV 最佳实践概述 ............................................................................................................................................................. 1 前置条件 ..................................................................................................................................................................... 1 演示环境说明 ............................................................................................................................................................. 2 1. 创建 VPC网络环境 ............................................................................................................................................. 3 2. 部署容器服务 Kubernetes 版集群 ..................................................................................................................... 6 2.1. 创建 ACK集群 ..................................................................................................................................... 6 2.2. 创建 SCCGN6型神龙服务器 ............................................................................................................. 13 2.3. 手动添加 SCC实例到 ACK集群 ....................................................................................................... 20 2.4. 在 shenlong001 上配置 ACK集群访问凭据 ..................................................................................... 23 2.5. 测试 RDMA协议 ............................................................................................................................... 24 3. 部署极速型 NAS ................................................................................................................................................ 26 3.1. 创建极速型 NAS实例 ....................................................................................................................... 26 3.2. ACK集群挂载极速型 NAS实例 ........................................................................................................ 31 3.2.1. 为 ACK集群创建存储卷 ........................................................................................................... 31 3.2.2. 为 ACK集群创建存储声明 ....................................................................................................... 34 3.2.3. 验证存储卷与存储声明配置正确 ............................................................................................ 35 3.3. 下载数据到极速型 NAS 实例 .......................................................................................................... 36 4. 部署 Arena工具 ................................................................................................................................................ 37 5. 在容器上启用 RDMA ........................................................................................................................................ 43 6. 安装 GDR驱动 .................................................................................................................................................. 46 7. 训练测试 ........................................................................................................................................................... 47 IV
6超级计算集群结合 ACK 快速实现 NLP 训练 最佳实践概述 最佳实践概述 方案场景描述 l 本方案适用于自然语言处理的训练场景,尤其是对性能要求苛刻,业务交付紧迫的场景。自然语言 处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。自然语言处理 的训练场景,训练出的模型可以用于预测,分类,文本分析,文本对答等。 l 本方案使用了 SCC 超级计算集群,采用 RDMA 网络+弹性裸金属服务器+文件服务 NAS 极速型+容 器服务 Kubernetes版+飞天 AI加速训练工具,提供极致性能稳定的训练环境,保障业务能力。 方案使用了阿里云的如下产品 l SCC超级计算集群 l 文件存储 NAS 极速型 l 容器服务 Kubernetes 版 l 弹性裸金属神龙服务器 部署架构 文档版本:20210311 1
7超级计算集群结合 ACK 快速实现 NLP 训练 最佳实践概述 方案优势 SCC 超级计算集群 • • 神龙服务器提供弹性+裸金属服务器性能,无性能损耗 • RDMA计算网络提供低延迟,高带宽网络传输,2.3us延迟,50Gb/s • 强大的计算能力,SCCGN6每台配置最新8个V100的GPU • 文件存储 NAS • 高可靠、高性能的分布式文件系统。 • 提供共享访问、弹性扩展 • 飞天 AI 加速训练工具 • 兼容TF,Caffe,Pytorch,Mxnet等主流框架 • 性能提升 • 加速效果明显,在双机16卡V100的测试环境下,相比horvord,性能 提升接近10倍。 • 对其他训练场景也有明显的加速效果 文档版本:20210311 2
8超级计算集群结合 ACK 快速实现 NLP 训练 前置条件 前置条件 为了顺利完成本实践,您需要完成以下准备工作: l 注册阿里云账号,并完成实名认证。 说明:您可以登录阿里云控制台,并前往实人认证页面: (https://account.console.aliyun.com/v2/#/authc/home),查看是否已经完成实名认证。 l 阿里云账户余额大于 100元。 说明:您可以登录阿里云控制台,并前往账户总览页面: (https://expense.console.aliyun.com/#/account/home),查看当前账户余额。 l 阿里云账号下已开通以下阿里云服务: – GPU 云服务器 – 文件存储 NAS 服务 – 容器服务 Kubernetes 版 – SCC 超级计算集群 l 下载本文用到的操作命令和代码: 以 CentOS 主机为例: # yum -y install git # git clone https://code.aliyun.com/best-practice/080.git l 遇到问题,请扫钉钉二维码联系作者获取支持。 文档版本:20210311 1