Minhui Xie, Shaoxun Zeng, Hao Guo, Shiwei Gao, Youyou Lu
Tsinghua University, Renmin University of China
ASPLOS 2025
Presenter: wzw
Date: 2026-04-03
P2P / all-to-all;到了 RTX 3090/4090 这类 commodity GPU,通信必须经 host memory 绕行,吞吐明显掉队。UVA 从 host 读。8×RTX 3090 上,相比 DGL-KE / HugeCTR,吞吐分别最高提升 1.5x / 8.7x;相对 datacenter GPU 方案的 cost-effectiveness 提升 4.0-4.3x。
Figure 3 给出的信号很直接: 把 HugeCTR 风格系统搬到 RTX 3090,训练吞吐相对 A30 最多下降 37%。all-to-all 带宽只有 datacenter GPU 的 54%,而 cache miss 路径还引入 CPU 参与 + bounce buffer。
GPU_i -> CPU/Host -> GPU_j,所以完整通信都暴露在 critical path。GPU -> host memory 提前异步做掉。host -> GPU 前台读取,代价更像读 host cacheline。
sample queue、update staging queue、priority queue 和后台 flushing threads。UVA 读 host;反向 update 先写本地 cache,再异步刷回 host。write-through 到 host,foreground training 会被 flush stall 拖住。g-entry,记录未来读集合 R set 与待提交写集合 W set。W set 非空,则 priority = min(R set);否则 priority = ∞。front(PQ) > s 时才允许进入 step s。
L 步,把将访问的 key 填进各 g-entry 的 R set。front(PQ) > s 时,训练线程才允许进入 step s,从而避免读到 stale host parameter。W set;而 远期才会再访问的 key 可以延后 flush,所以前台 stall 大幅下降。
P^2F 要高频做 enqueue / dequeue / adjustPriority,传统 concurrent heap 有 O(log N) 复杂度和 near-root contention。O(1),并且更适合多 flushing threads 并发访问。1.5TB DRAM,controller 还要跑 prefetch thread 与 8-12 个 flushing threads。同步训练 + 稀疏 embedding access + 单机 PCIe commodity GPU。2× Intel Gold 6130 + 1.5TB DRAM + 8× RTX 3090,每卡 PCIe 4.0×16。FB15k / Freebase / WikiKG + TransE,embedding dim 400。Avazu / Criteo / CriteoTB + DLRM,embedding dim 32。DGL-KE / DGL-KE-cached / PyTorch / HugeCTR / Frugal-Sync。5%,默认全卡,通常使用 8 个 flushing threads。
DGL-KE,FRUGAL 吞吐提升 1.2-1.5x;相比 DGL-KE-cached,提升 4.1-7.1x。DGL-KE-cached 在 commodity GPU 上常常比 vanilla DGL-KE 还慢。
Avazu / Criteo / CriteoTB,FRUGAL 相比 PyTorch 达 4.9-7.4x,相比 HugeCTR 达 6.1-8.7x。| 机制 | 指标 | 收益 |
|---|---|---|
P^2F vs SyncFlushing |
training stall time | 34-101x 更低 |
P^2F vs SyncFlushing |
end-to-end throughput | 3.5-5.3x |
UVA host access |
host access latency | 3.1-3.4x 更低 |
| Two-level PQ vs TreeHeap | FRUGAL throughput | 2.1-3.3x |

RTX 3090 上做到约 89%-97% 的 A30 吞吐,但卡价仅约 $1310 vs $5885,因此性价比提升 4.0-4.3x。proactively flushing + UVA host read + two-level PQ 三件事必须一起看。