Payman Behnam, Mahdi Nazm Bojnordi
University of Utah
IEEE TC 2020
Presenter: wzw
Date: 2026-03-31
data bus 的能耗很高,DDR4 靠 termination 和高频率拿带宽,LPDDR3 靠 unterminated wires 省电,但会明显掉带宽。LPDDR3 data wires + DDR4 clock/mode wires + transition-based encoding,强制相邻周期不连续翻转,在低功耗线上跑高参考时钟。17%;同时优化 LLC + DRAM 后,system energy / EDP / performance 分别改善 8% / 15% / 9%,且性能达到 HP baseline 的 98%。
33%,data movement 已经不是边角料。
read/write 都要付出额外功耗。
1 编成 transition、0 编成 no-transition。1,下一拍强制插入 dummy 0,从而保证 不会有连续两拍翻转,信号完整性才撑得住。
LPDDR3 @ 800 MHz 的 low-power unterminated wires。DDR4 @ 1600 MHz 的 high-performance wires。encoder / transmitter / receiver / decoder,controller 负责管理编码与模式位。
Hamming weight,若大于 4 就先取反,保证一条 data wire 上发送的 1 不会超过 4 个。shift register + transition generator 把 bitstream 变成 wire flips。delay injector 在每个 1 后插入 dummy 0,把最大 transition rate 压到安全范围内。
transition detector 用 XOR + flip-flop 把“有翻转”恢复成 1,没翻转恢复成 0。1 时暂停 shift,相当于把前一拍插入的 dummy 0 覆盖掉。XOR,把原始 byte 还原回来。8 x 8 数据块做两阶段编码。XOR,如果结果 HW > 4,就翻转左列并设置 vertical mode bit,提高列间相似性。HW,若 HW > 4,就翻转该行并设置 horizontal mode bit。HW(row) <= 4。0。8 x 8 数据块先做两阶段编码,得到 data bits 和 mode bits。1 变成 transition、把 0 变成 no-transition,并在每个 1 后自动插入 dummy 0。0、恢复 inversion 后的原始数据。1 必须足够稀疏”。1600 MHz reference clock,但要求实际 transition 频率不超过 800 MHz。8 bits / 6 cycle times ≈ 1.33 bits per cycle time。2.13 Gbps。STFL encoder 面积约 1642 um^2、延迟 0.831 ns、功耗 0.49 mW。STFL decoder 面积约 102 um^2、延迟 0.071 ns、功耗 0.71 mW。BD 和 CAFO,STFL 的编码/解码硬件 面积更小,延迟和功耗也在同一量级。LPDDR3 data wires + DDR4 clock/mode wires,工业落地需要更细的 SI / validation 证据。ESESC + HSPICE + PTM 22nm + CACTI IO + Micron power calculator + DRAMPower + McPAT。4-core OoO @ 3.2GHz,32KB L1,4MB shared LLC,2 DRAM channels。DBI、BD、CAFO、DESC、SETS,以及 LP baseline。12 个并行 benchmark,来自 NAS OpenMP + SPLASH-2 + Phoenix。DDR4-2133 建模,但 t_BURST = 6 for STFL-DDR,4 for others。
28% 左右,也就是 -72%。17%,说明收益不只是“换成 unterminated wires”,还来自 编码降低 switching。
-26%;但对多数应用,LPDDR3 也有 -22%,说明很多 workload 对带宽不敏感。BT 这类高带宽应用是例外:LP 虽然更省 DRAM energy,但会因带宽不足拉长时间,静态能耗反而更高。

BD 还会快 1%-4%。
7%。10% 的时间损失,而 STFL 把这个损失压到 < 2%。98% 性能。

EDP 相对 binary encoding 在 LP/HP wires 上分别改善 15% / 25%。LPDDR3 @ 800 MHz 明显掉带宽。BT,DRAM 带宽需求约 15 GBps。BT 上,LPDDR3 虽然 DRAM energy 下降更多,但会因带宽不足拉长执行时间,增加 static energy。1 稀疏化”规避连续翻转。ECC、高熵数据、更新一代的 DDR speed bin 纳入实测或更严密的 sensitivity study。