Ataberk Olgun, F. Nisa Bostanci, Geraldo Francisco de Oliveira Junior, Yahya Can Tugrul, Rahul Bera, Abdullah Giray Yaglikci, Hasan Hassan, Oguz Ergin, Onur Mutlu
ETH Zurich, TOBB University of Economics and Technology
TACO 2024
Presenter: wzw
Date: 2026-03-31
cache line 中少数几个 word,但 DRAM 仍按 整块传输 + 整行激活 工作,造成数据搬运和 activation 双重浪费。Sectored Activation (SA) + Variable Burst Length (VBL) 同时细化 activation 和 transfer,并用 sectored cache + LSQ Lookahead + SP 控住 sector misses。-20%、性能平均 +17%、system energy 平均 -14%;DRAM chip area overhead 仅 1.72%。
chips -> banks -> subarrays -> mats 组成,但 memory controller 看不到 mat。
1.27×;粗粒度 activation 的能耗是 fine-grained activation 的 1.04×。mats 切开,因此 activation granularity 不一定非得是整 row。Read FIFO / burst counter 逐 beat 选择输出,因此 burst length 不一定非得固定为 8 beats。SA 只开需要的 sectors,VBL 只传需要的 beats。sectored cache 跟踪部分有效 line,LSQ Lookahead 合并近未来 word 请求,SP 预测本 line 的 useful words。sector mask m,使有效 burst 长度退化成 BL_eff = ||m||_1,而不是固定 8 beats。sector latch + sector transistor + extra LWD stripe,让 ACT 不再默认打开所有 mats。PRE 的未使用编码位;后续 ACT 只打开 mask 选中的 sectors。tFAW 预算”重新解释成 固定数量 sector activations 的预算。
Read FIFO 本来就按 beat 输出条目;VBL 只是把固定的 burst counter 选择逻辑改成由 sector bits 驱动的 encoder。READ/WRITE 的实际 burst 长度。
tag hit + sector miss,请求带上 demand sector bits 往下走。LSQ Lookahead 追加近未来会用到的 sectors,SP 再追加历史上常用的 sectors,形成最终 mask。SA + VBL;DRAM 只激活相关 sectors、只返回对应 beats。1.72%;按 bank 看,额外开销约 0.39 mm²。SP 使 8-core 处理器面积增加 1.22%;其中 SP 仅 1088 B/core。2.6% / 5.2%,面积账单更重。PRE 编码承载 sector bits、LSQ 比较逻辑、以及更多 memory requests 对调度器的压力,都是现实落地要面对的验证点。Ramulator + DRAMPower + Rambus Power Model + CACTI。SPEC2006 + SPEC2017 + DAMOV;并按 LLC MPKI 分成 High / Medium / Low 三类。1-16 cores @ 3.6GHz,32KiB L1 / 256KiB L2 / 8MiB L3,DDR4-3200,4 ranks,16 banks/rank,8 sectors/subarray。128-entry LSQ Lookahead,512-entry SP。
ACT / READ / WRITE 在 8/4/2/1 sectors 下的 power 与 energy。70.0% 和 70.6%。ACT 总功耗只下降 12.7%,说明整篇 paper 的大头收益其实更多来自 reduced transfer, 不只是 reduced activation。
Basic 表示只有 Sectored DRAM,没有 LSQ / SP。Basic 的 LLC MPKI 平均变成 baseline 的 3.1×。LA128-SP512 把 Basic 的 LLC misses 压回 -52%,说明 系统 integration 不是配菜,而是主菜。
+26%;根因是 tFAW 放松后能更快发出 ACT。5.41% 性能损失。
1.17× avg / 1.36× max;相对 FGA / PRA 的平均 speedup 是 2.05× / 1.10×。0.89× 性能,但 energy 更低 12%、面积更小 34%,卖点是 更平衡。
RD/WR energy 平均下降 51%,并把 memory-controller 与 DRAM 间传输字节数平均减少 55%。ACT energy 平均下降 6%;最终 system energy 的 headline 是 -14% avg / -23% max。sectored cache + LSQ Lookahead + SP 把 fine-grained DRAM 接回现有 cache-block-based system。activation 与 transfer 两个粗粒度问题,比只做 FGA 更完整。