BpFile(id=257, bpId=75, name=超级计算集群实现自然语言处理训练, author=null, keyword=NLP,BERT,SCCGN6,RDMA, description=使用裸金属GPU服务器、CPFS和Perseus框架/搭建NLP训练环境, position=null, ossUrl=bp-EBQD4NY7DO8WOSAC.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
本方案适用于自然语言训练场景,使用神龙
GPU云服务器(SCCGN6)+CPFS进行NLP的
训练,采用Bert模型。这里不使用容器,直接
使用裸机进行NLP的Bert训练,使用飞天AI加
速训练工具可以有效提升多机多卡的训练效率。
解决问题
使用神龙GPU云服务器搭建NLP训练环
境
使用SCC的RDMA网络
使用CPFS存储训练数据
使用飞天AI加速训练工具加速训练
产品列表
神龙GPU云服务器(SCCGN6)
SCC超级计算集群
CPFS共享存储
, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null)