在GPU集群上使用Megatron-LM高效训练大规模语言模型

Posted on 四月 9, 2021

论文概述Megatron-LM是来自NVIDIA、微软和顶尖大学的里程碑式分布式训练系统，能够在数千个GPU上高效训练万亿参数语言模型。其核心创新是三维并行（3D Parallelism） - 组合张量并行（节点内）、流水线并行（节点间）和数据并行，以高效地在GPU集群上分区大规模模型。Megatron在3,072个A100 GPU上训练1万亿参数模型时达到502 petaFLOPs，实现了理论峰值吞吐量的52%，并具有近乎完美的线性扩展性。新颖的交错流水线调度相比传统方法提升了10%以上的吞吐量。该工作发表于SC21（超级计算2021）并获得最佳论文奖，Megatron-LM已成为大规模LLM训练的事实标准，被GPT-3、Turing-NLG等众多研究项目采用。论文信息：发布时间：2021-04-09 作者：Deepak Narayanan, Mohammad Shoeybi...

阅读全文