论文概述PyTorch FSDP(全分片数据并行,Fully Sharded Data Parallel)是PyTorch团队提供的工业级分布式训练解决方案,通过与PyTorch核心基础设施的深度协同设计,实现了全分片数据并行。系统在GPU之间分片模型参数、梯度和优化器状态,同时保持PyTorch编程接口。该系统已成为大规模模型训练的可访问解决方案,提供与DDP相当的性能,同时支持显著更大的模型。
论文信息:
发布时间:2023-04-21
作者:Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo等
机构:Meta (Facebook) AI
研究方向:分布式训练、模型扩展
核心技术:全分片数据并行 (Fully Sharded Data Parallel)
研究背景随着模型规模不断增长,分布式训练成为必需。本研究针对以下问题展开:
现有问...