扩散语言模型一口气冲到100B规模?!首份技术报告揭晓背后秘密
此前的 LLaDA、LLaDA-MoE 都是这一方向的成功尝试,证明了从头训练的 dLLM 性能可以接近同尺寸的 AR 模型,并且在加入 MoE 后,dLLM 还能更高效、更强。这为扩散语言模型的规模化探索提供了一条切实可行的工程路径,打开了一片更广阔的设计空间。在预训练阶段,团队将 Megatron-LM 用作训练后端,并结合数据并行(DP)、流水线并行(PP)、张量并行(TP)、上下文并行(CP)与专家并行(EP)的多并行策略,使得千亿级模型在长序列与复杂注意力结构下仍能保持高吞吐与强扩展性。