Foteini Strati, Michal Friedman, Ana Klimovic
ETH Zurich
ASPLOS 2025
Presenter: wzw
Date: 2026-03-27
10 iterations 仍仅约 3% overhead,在 spot-VM preemption trace 下 goodput 最多高 2.86x。60%~90%,但云上会频繁 preempt;作者引用的 64-GPU cluster 在 24 小时内可遇到 127 次 preemption。
<=50 iterations checkpoint 时仍有 >10% overhead。
10~25 iterations,所以系统必须支持 fine-grained checkpointing。

U1 后,GPU 立即把 state 拷到 DRAM 形成 C1,训练 meanwhile 继续跑 T2。P1 还没完成,PCcheck 也允许 C2 继续开始。
chunk i 已经开始持久化时,继续从 GPU 拷 chunk i+1。$f \ge \frac{T_w}{N \cdot q \cdot t}$T_w: 最坏写入时间;N: 并发度;q: slowdown 预算;t: iteration time。| 方案 | GPU Mem | DRAM | Storage |
|---|---|---|---|
| CheckFreq | m |
m |
2m |
| GPM | m |
0 |
2m |
| Gemini | m+buffer |
m |
0 |
| PCcheck | m |
m~2m |
(N+1)m |
GPU copy engine + pinned memory + DDIO,PMEM 侧用 non-temporal store + sfence。CHECK_ADDR + counter + CAS 保证: 任何时刻至少有一个合法 checkpoint。a2-highgpu-1g,A100-40GB + PCIe3x16 + 85GB DRAM + 1TB SSD。Titan RTX-24GB + Intel Optane PMEM,两机型分别评估 SSD / PMEM 场景。VGG16, TransformerXL, BERT, OPT-1.3B, OPT-2.7B, BLOOM-7B,checkpoint 大小从 1.1GB 到 108GB。CheckFreq, GPM, Gemini,其中 Gemini 由作者按论文描述自行实现。
57x slowdown。OPT-1.3B,every 50 iterations 时,PCcheck 为 1.02x,而 GPM / CheckFreq 约 1.9x / 1.17x。a2-highgpu-1g 上测得 inter-machine bandwidth 约 15 Gbps,不足以把网络 copy 完全藏进训练过程。OPT-2.7B / BLOOM-7B,Gemini slowdown 为 1.62x~1.06x / 1.65x~1.08x,而 PCcheck 压到 <1.05x / <1.02x。
10~25 iterations,这正是 prior systems 最难承受的频段。OPT-1.3B 的例子里,every 10 iterations 时 PCcheck 的 goodput 比 CheckFreq 高 1.77x。GPM / CheckFreq / Gemini 的 goodput 最多分别高 1.75x / 2.86x / 2.75x,说明 rollback 增量仍小于吞吐收益。
100 压到 10 iterations,recovery time 相应降 10x。1.9x。
2~4 个通常就够了,再多会开始撞上 SSD bandwidth saturation。(N+1)m 的 storage footprint 对 108GB checkpoint 级别的模型并不便宜。