Guoyu Li, Shengyu Ye, Chunyun Chen, Yang Wang, Fan Yang, Ting Cao, Cheng Liu, Mohamed M. Sabry Aly, Mao Yang
Microsoft Research, UCAS, NTU Singapore
HPCA 2025
Presenter: wzw
Date: 2026-03-24
scalar quantization 压到 INT1 后,ALU 的 area / power efficiency 基本收敛。vector quantization + PSum LUT 把 GEMM 改成 matching + lookup + accumulation。6.2x~12.0x,功耗/面积效率提升 1.4x~7.0x 与 1.5x~146.1x。

VQ,在线只保留 centroid index。centroid × weight 可离线预计算成 PSum LUT。matching + lookup 的专用 DLA。v / c / metric / n_CCU / n_IMM 同时影响 accuracy 和 hardware cost。
CCM + IMM + dataflow。
CCM 做 similarity search,IMM 做 PSum LUT 查询与累加。asynchronous FIFO 解耦,可跑在不同 clock domain。
dPE 比较一部分 centroid,并传递 min distance + index + vector。| Dataflow | Total Size | 含义 |
|---|---|---|
MNK |
2064.1KB |
LUT 几乎常驻片上 |
KMN |
408.0KB |
scratchpad 过大 |
KNM |
385.3KB |
仍然偏重存储 |
LUT-Stationary |
17.3KB |
LUT 与 scratchpad 最平衡 |
M=512,K=N=768,v=4,c=32 下,LS 把片上总存储压到 17.3KB。ping-pong buffer 把装载延迟藏到计算后面。CCM 按子空间对输入向量做 centroid matching,产出 index。IMM 按 k/n tile 装载 PSum LUT,再用 index 查表并写回 scratchpad。LS dataflow 优先复用同一 LUT / codebook;瓶颈若偏 lookup,就扩 IMM 而不是盲目扩 CCU。
replace linear ops -> train centroids -> joint train centroids + weights。
2000 iterations 明显压低 loss。CIFAR100 上,multi-stage 比 single-stage 提升 3.27~5.84pt (L2),5.57~7.20pt (L1)。
L1 去掉乘法器,Chebyshev 进一步简化比较逻辑。L2 略差,但 hardware area / energy 明显更低。
max(load, sim, lut),不是只盯单一 roofline。ResNet20/32/56, ResNet18, VGG11, LeNet, BERT, DistillBERT, OPT-125M。20 epochs 再 joint 300 epochs;BERT 类先训 2000 iterations。Chisel RTL + Cadence Genus + 28nm FD-SOI @ 300MHz。NVDLA, Gemmini, PQA, 以及 PECAN/POA 的准确率对比。0.1%~3.1% (L2)、0.1%~3.4% (L1)、0.1%~3.8% (Chebyshev)。1.4%~3.0%。OPT-125M 在 GLUE 上平均分仍有 84.9 / 85.4,说明 LUTBoost 已能扩到更大模型。
PECAN/PQA,LUTBoost 在 CIFAR10 平均高 2.5%,在 CIFAR100 平均高 8.2%。
Design1 面积接近 NVDLA-Small,但在 BERT / ResNet18 上快 6.2x / 12.0x。Design2 吞吐接近 NVDLA-Large,面积只有其 1/7。Design3 达到 759.5 GOPS/mm^2 与 5.6 GOPS/mW。
Design2 在 CNN 上超过 NVDLA-Large,同时节能约 11x。Design3 在 BERT 上最高达 72x throughput,energy 降低 11.5x。PQA,同参数 GEMM 下 LUT-DLA 片上内存从 6912KB 降到 10.5KB,cycles 再快 1.6x。CCM/IMM + LS dataflow + LUTBoost + DSE 形成了一个完整且自洽的系统闭环。LS dataflow 和 CCM/IMM decoupling,因为它们解决了 LUT 路线最致命的 storage / bandwidth 问题。QKV + FFN,未覆盖 softmax/layernorm 全栈成本。