Gunho Park, Hyeokjun Kwon, Jiwoo Kim, Jeongin Bae, Baeseong Park, Dongsoo Lee, Youngjoo Lee
POSTECH, NAVER Cloud
HPCA 2025
Presenter: wzw
Date: 2026-03-24
weight-only quantization 节省了权重存储,但执行端仍卡在 FP activation × INT weight,GPU 往往退回 dequantize + FP-FP compute。LUT read + RAC accumulation,再用 FFLUT / hFFLUT 从硬件结构上消掉 bank conflict。Q3 权重下,较 SOTA 提升 59% TOPS/W 且 perplexity 降 20%;同等 perplexity 下,Q2.4 方案能效再高 98%。LLM inference 已经明显 memory-bound,weight-only 的目标本来是减少 DRAM footprint 和 bandwidth。FP16/BF16,所以真正执行的是 FP-INT GEMM,这不是通用 GPU 最擅长的 datapath。GPU 仍依赖 FP-FP;iFPU 支持 mixed precision 但复杂度随位宽线性涨;FIGNA 更高效,但基本锁在固定精度和 uniform quantization。

BCQ / binary-coded 权重,局部内积本质上是若干输入激活的 正负组合。μ 个 binary 权重作为 key,就可预存 2^μ 个结果;于是复杂度可从 O(mnkq) 摊到 O(mnkq/μ)。
MAC 改成了 1 LUT + k RACs。LUT generator 在线接收 μ 个输入生成 partial sums;RAC 只负责 按 weight pattern 查表并累加。
q 个 binary bit-plane。k 个 RAC 并发查表并沿列累加,最后再乘对应 scale 并加 offset。
Register File LUT 受限于 read/write ports,不适合大量并发随机读。flip-flop bundle + dedicated multiplexers。RAC 同时访问,不再受 bank / port contention 约束。
μ 大,单次 read 替代的加法更多;但 LUT 容量按 2^μ 增长,μ=8 已经过大。μ=2 与 μ=4 两档,原因是更大的 LUT 已经不值得。μ=4,因为在共享足够多 RAC 时,较大的 LUT 成本能被摊销掉。
k 大,更多 RAC 共享同一 LUT,LUT 数量会下降,摊销更好。P_RAC 不是单调下降。k=32,这是共享收益与 wire/power 代价之间的折中点。
hFFLUT 只保留一半表项,利用 MSB 选择 key 并决定是否 sign-flip。FFLUT LUT = 1.000,hFFLUT LUT = 0.494,额外 MUX+Decoder = 0.005。
hFFLUT 让生成器只需计算半张表,论文报告 additions 减少 42%。μ=4,作者报告完整生成 hFFLUT 需要 14 次加法,而不是对每个结果都暴力重算。
OPT-350M ~ OPT-30B,重点展示 OPT-6.7B。WikiText-2,FP16 activation + Q4 weight,accumulation 用 FP32。28nm CMOS @ 100MHz,Synopsys DC 综合;片外 DRAM 用 CACTI 建模。FPE, iFPU, FIGNA, FIGLUT-F, FIGLUT-I。TOPS,再比较 TOPS/W、TOPS/mm^2 和 perplexity。

OPT-6.7B 上,GPU / FIGLUT-F / FIGLUT-I 的 perplexity 都约为 24.13。2 × 16 × 4 MPU,论文报告 area efficiency 最高约 1.5×。

FP16-Q4 且对齐同样 0.14 TOPS 时,iFPU / FIGNA / FIGLUT 分别是 0.21 / 0.33 / 0.47 TOPS/W。Q4 高 1.2×,Q3 高 1.6×。FIGLUT-Q2.4 相对 FIGNA-Q3 还能做到 1.98× 能效,且模型大小再减 20%。sub-4-bit LLM inference。Q8 甚至更高精度走,μ 需要继续增大,LUT 与 generator 开销会快速变差。LUT-based FP-INT GEMM 从 kernel idea 推进成 可布局布线的 accelerator datapath。RAC 取代 MAC,FFLUT 消除冲突,hFFLUT 把 LUT 主体再砍半。μ / k / fan-out / P&R power,工程说服力比很多 accelerator paper 强。batch=1 decode 下 LUT generation 占比还没拆清;若走向更高精度,需要 hierarchical LUT 或 layer-wise 自适应 μ。