Yixuan Mei, Yonghao Zhuang, Xupeng Miao, Juncheng Yang, Zhihao Jia, Rashmi Vinayak
Carnegie Mellon University
ASPLOS 2025
Presenter: wzw
Date: 2026-03-30
homogeneous GPU + fixed pipeline;到了异构 GPU、跨地域网络后,切层 和 路由 会互相卡死。model placement,再用 per-request pipeline + IWRR 在线逼近最优流。3.3x;在 geo-distributed 场景,prompt / decode latency 最高下降 66% / 24%。LLaMA-3 405B 若按传统同构 serving,需要 68×L4 / 41×A100 / 21×H100。H100 / A100 / L4 / T4 可用性差异很大,很难在单个 region 拿到足够多同类 GPU。
Figure 1 展示了三种失败方式: 平均切层会拖慢强 GPU,只平衡 FLOPs 会把慢链路打爆。model partition、device placement、request scheduling 是强耦合的,不是三个独立 heuristic。

c_i^in -> c_i^out,边容量表示 token processing throughput。$$ \max \sum_i f_{\text{source}, i} $$
O(nodes + edges)。

IWRR scheduler,候选后继节点的权重正比于 max-flow 解中的边流量。P(u \rightarrow v) \propto f_{u,v} 的频率分流,避免 fixed pipeline 的空转与局部拥塞。LLaMA-1 30B 与 LLaMA-2 70B,FP16。4×A100 + 8×L4 + 12×T4,同 region,10 Gb/s 网络。100 Mb/s、50 ms。42 个节点、7 种节点类型。16,657 个请求,平均 input 763、output 232。
LLaMA 30B: 与 SP 接近,但相对 Swarm 的 decode throughput 仍高 2.14x / 2.07x。LLaMA 70B: 相对 SP 达 1.86x / 1.69x,相对 Swarm 达 1.94x / 2.00x。模型越大,异构混用越必要。
LLaMA 30B: 相对 Swarm 吞吐 2.41x,在线 prompt / decode latency 降 66% / 24%;LLaMA 70B 的 pipeline 深度也比 Swarm 少 28%。
42-node / 7-type 集群里,V100、T4、2×T4 这类机器根本很难靠自己形成好 pipeline。Swarm / SP / SP+,Helix offline throughput 分别是 1.37x / 2.91x / 2.24x,online throughput 分别是 1.48x / 3.29x / 2.54x。
LLaMA 70B 上,Helix 相比 Petals / Swarm 的 offline throughput 分别高 1.23x / 2.10x。T4 bottleneck,让几乎所有节点都接近 fully-utilized。
LLaMA 70B 上,Helix 相比 Swarm / random / shortest-queue,吞吐高 30% / 29% / 19%。
1.5k LoC Python + 1.7k LoC C++,另有 14k LoC simulator。4h;小例子 <5 min 找到最优,但证明最优可能要 1h+。cluster pruning 与 heuristic warm-start,问题规模可降 36% / 46%。max-flow abstraction + per-request pipeline,它把离线最优和在线执行真正接上了。P99 TTFT 或多租户公平性。prefill/decode disaggregation、speculative decoding、甚至 cost / carbon-aware objective 结合,会更接近生产系统。