EN

分布式大模型训练系统

15.png

清华大学计算机系 PACMAN 实验室开发了 FastMoE, FasterMoE 等支持超大模型训练的并行加速框架. 针对具有动态性的大规模预训练模型的分布式训练系统, FasterMoE 在负载均衡, 计算通信重叠, 网络拥塞等性能瓶颈进行了深入分析和性能优化, 获得了高达 17 倍的效率提升. FastMoE 支撑了悟道百万亿级大模型的训练工作。

文本正文
复制文本
媒体联络
media@baai.ac.cn