Ahmed J. Abdelmaksoud, Shady Agwa, Themis Prodromakis
The University of Edinburgh
IEEE TCAS-I 2026
Presenter: wzw
Date: 2026-04-28
weight-stationary (WS) systolic array 为了对齐输入/输出时序,需要额外 FIFO,而且 PE 只能沿对角线逐步激活,TFPU = 2N - 1。diagonal-input + permutated weight 重写数据流,在不引入大型 adder tree 的前提下直接去掉同步 FIFO。22nm、64x64 阵列下,DiP 相对 WS 达到 1.49x throughput、1.21x lower power、1.93x energy-efficiency-per-area;在 transformer workloads 上最高 1.81x energy gain。MHA/FFN 本质上被大规模 matrix multiplication 主导,商业 AI 芯片普遍采用 systolic array。OS 需要更高 memory bandwidth,RS 有更多 data replication;因此他们聚焦更常用的 WS。WS 的优点是 weight reuse 高、结构规整、易扩展到大阵列,这也是 TPU-like 设计的主流路线。
WS 阵列:边界需要两组 input/output FIFO 做同步,额外吃掉 area、power、latency。TFPU,这让后面的 DiP 设计目标非常清楚。TFPU_WS = 2N - 1 cycles 才能满载;DiP 只需 TFPU_DiP = N。3N + S - 3 降到 2N + S - 2,主导项直接少了一个 N。64x64 时逼近 1.49x。
N x N PE mesh,单个 PE 仍然只是 2-stage pipelined MAC + 4 registers。PE rows 必须等待很久才能被喂饱。PE 的寄存输入跨行对角连到下一行最右侧 PE,输入会从一行“斜着”流向下一行。TFPU 从 2N - 1 降到 N,大阵列下启动成本几乎减半。PE datapath 没变。W'_{j,i} = W_{(j+i)\bmod N,\,i};结果是 PE 仍在正确 cycle 看到目标 weight,因此能删掉 FIFO。
Cycle -2 ~ 0: 先按 permutation 后的顺序装入权重;Cycle 0 同时装最后一行权重和第一行输入。Cycle 1 ~ 5: 输入先在 Row-0 计算,再通过 diagonal connection 变成下一行需要的顺序继续流动。| Size | Tput Gain | Power Gain | Area Gain | Overall Gain |
|---|---|---|---|---|
32x32 |
1.48x |
1.25x lower |
1.09x smaller |
2.02x |
64x64 |
1.49x |
1.21x lower |
1.07x smaller |
1.93x |
64x64 时仍能省面积,说明新增的 diagonal wiring 并没有把实现成本重新吃回来。4096 PEs、8.192 TOPS、9.548 TOPS/W。Verilog,从综合一直做到 GDSII,工艺为商用 22nm、频率 1 GHz。4x4 到 64x64;analytical model 则从 3x3 到 64x64 比较 WS 与 DiP。MHA + FFN,覆盖 Vanilla Transformer / T5 / BART / BERT / ALBERT / Transformer-XL / GPT-2 / GPT-3 / LLaMA。WS/TPU-like baseline;另一类是跨论文的 SOTA accelerators。
Fig.4(a)(b) 表明阵列变大时,DiP 的 latency saving 从约 28% 走到 33%,throughput gain 从 33.3% 逼近 49.2%。Fig.4(c) 说明仅靠删除同步 FIFO,寄存器开销在 64x64 就可省到约 20%。Fig.4(d) 最重要:DiP 用 N cycles 即可满载,而 WS 需要 2N-1;这解释了它为什么尤其擅长小到中等 tile。
64x64 TPU-like baseline 上,DiP 对 MHA/FFN workload 的 energy gain 为 1.25x ~ 1.81x,latency gain 为 1.03x ~ 1.49x。M2 tile 时都要重新支付更高的 TFPU。1.03x。| Metric | DiP | TPUv4i | Groq TSP | DTATrans |
|---|---|---|---|---|
| Peak Throughput | 8.192 |
138 |
820 |
1.304 |
| Energy Eff. | 9.548 |
0.786 |
2.733 |
1.623 |
| Area Eff. @22nm | 8.192 |
0.017 |
0.412 |
2.984 |
22nm 归一化口径,DiP 的 energy efficiency / area efficiency 很强,尤其优于 system-level 大芯片。core-level、system-level、post-silicon、post-synthesis 和 post-layout,只能看趋势,不能当严格公平比较。WS/TPU-like baseline 的 head-to-head 对比。latency、throughput、area、power,并且解释链路很完整:lower TFPU + no FIFO + better PE utilization。3x3 lifecycle 例子把整个想法讲得很透,说明作者对 dataflow correctness 的把握是到 cycle 级的。weight permutation 说成几乎零开销,但没有充分量化地址生成、bank conflict 和 memory scheduling 代价。multi-core DiP、非整除 tile、以及真实 system memory hierarchy 下它还能保留多少收益。