Shenggan Cheng, Hao Wu, Ziming Liu, Shengjie Lin, Siyu Wang, Xuanlei Zhao, Lansong Diao, Chang Si, Jiangsu Du, Wei Lin, Yang You
NUS, GMU, Georgia Tech, Alibaba Group, Sun Yat-sen University
ASPLOS 2025
Presenter: wzw
Date: 2026-04-28
Megatron-LM / JAX-XLA / DeepSpeed / Alpa,最高达到 19.0% / 34% / 42.9% / 22.7% 提速。
DP 有 gradient sync,TP 有 forward/backward all-reduce,ZeRO 有 gather/scatter。

Figure 2 说明 bucket size 没有通用最优点,不同模型最优设置差异明显。Figure 3 说明只按 program order 发通信会错过 overlap 机会;真正的问题是 operator order + communication granularity 都要调。asynchronous communication,核心是重排 launch 次序,尽量把 communication 塞进 compute 空隙。synchronous communication,仅靠调度不够,必须主动拆分上下文计算,制造新的 overlap 窗口。
torch.fx graph,输出是一个被重新排序、必要时被分解过的 ConcertoIR。auto-decomposition 找并拆 critical communication;scheduling 负责重排顺序并顺带做 fusion。min makespan,同时满足 dependency 与 resource 约束。computation 与 communication。
NP-hard,直接在上万节点图上解 ILP 不现实。O(k t_b n / b),在“解得动”与“接近最优”之间做工程折中。
critical communication。cost = max(uncovered-comm, split-overhead, 0)。cost 同时衡量 未遮蔽通信 与 拆分开销。\alpha = 1.2,来自 18.2% / 21.9% / 23.8% 的实测退化。train_step -> torch.fx -> ConcertoIR,并插入 parallel method 对应的 communication ops。T_i,auto-decomposition 为关键同步通信生成候选策略。comp 进默认 stream,comm 进通信 stream。4 nodes / 32x A800-80GB,单节点 8 GPU + NVLink 400 GB/s,跨节点带宽 800 Gbps。CUDA 12.0, PyTorch 2.1.2, NCCL 2.18.6。GPT, ViT, Evoformer, WideResNet。PTD, ZeRO-2/3, DAP, automatic parallelism。Megatron-LM v3.0, JAX/XLA 0.4.30, DeepSpeed 0.12.4, Alpa 0.2.3。

Megatron-LM,Concerto 在 GPT 上 最高 +19.0%,平均 +3.5%;在 NVLink 很强时增益变小,因为 baseline 已经高度手工优化。JAX/XLA,Concerto 无 NVLink 最高 +34%,有 NVLink 最高 +13.4%;说明固定 heuristic 与固定 decomposition 对硬件变化不够鲁棒。| 场景 | Baseline | Concerto 提升 |
|---|---|---|
| ZeRO-2 | DeepSpeed | 最高 42.9%,平均 19.1% |
| ZeRO-3 | DeepSpeed | 最高 33.2%,平均 15.1% |
| DAP | FastFold-style impl | 平均 12.5% / 15.6% |
| Auto-parallel | Alpa | 最高 22.7%,平均 11.1% |
| Case | Baseline | Concerto(S) | Concerto(S+AD) |
|---|---|---|---|
(1,16,1) NVLink FP16 |
0.974 | 0.860 | 0.817 |
(1,8,2) no-NVLink FP32 |
6.566 | 6.295 | 5.616 |
| GPU 数 | ZeRO-3 FP16 fusion 前 | fusion 后 |
|---|---|---|
| 8 | 0.517 | 0.505 |
| 16 | 0.531 | 0.504 |
| 32 | 0.614 | 0.468 |
Scheduling 已经能带来稳定收益,但 auto-decomposition 在通信更重的场景还能继续放大。23.8% 额外改善。
profiling + auto-decomposition + scheduling。< 1s,odd-even scheduling 每轮约 2s-30s。RCPSP + odd-even scheduling + auto-decomposition 扩大了可搜索的 overlap 空间。PTD / ZeRO / DAP / auto-parallel 上都拿到可观收益,证明设计有跨范式泛化能力。intra-node 与 inter-node 通信没有被显式区分;作者自己也承认这限制了最优性。