Wang
Zongwu
home
archives
categories
tags
Your browser does not support HTML5 video.
NEWS LETTER
基于查找表(LUT)的大模型推理加速技术深度调研
Home
2026
Scroll down
Welcome to Zongwu's Science Hub ✨
Residence:
Shanghai
Age:
18
Contact Me
03/20
12:13
zongwu wang
请输入密码继续
Other Articles
System
Fast On-device LLM Inference with NPUs
26/03/21
16:23
Review
端侧大模型算法与硬件协同演进的深度调研报告
26/03/15
22:26
Article table of contents
TOP
1.
基于查找表(LUT)的大模型推理加速技术深度调研
1.1.
摘要
1.2.
1. 大模型推理的体系结构瓶颈与查找表(LUT)计算范式的崛起
1.3.
1.1 “内存墙”危机与传统解量化(Dequantization)的计算开销
1.4.
1.2 查找表(LUT)计算的核心机理与优势
1.5.
2. 通用与定制化 GPU 环境下的软件级 LUT 算子重构
1.6.
2.1 基于二进制编码量化(BCQ)的 LUT-GEMM
1.7.
2.2 针对非均匀量化优化的 FLUTE 引擎
1.8.
3. 从指令集到数据流:软硬件协同的 ASIC 架构设计
1.9.
3.1 LUT Tensor Core:对矩阵核心的底层革命
1.10.
3.2 TENET:极致的三值化(Ternary)稀疏加速架构
1.11.
3.3 FIGLUT:面向 FP-INT GEMM 的半尺寸查找表架构
1.12.
3.4 LUT-DLA:面向极低比特的向量量化与 LUT-Stationary 数据流
1.13.
4. 突破动态长上下文:现场可编程逻辑门阵列(FPGA)的流式 LUT 定制
1.14.
4.1 首个支持 1B+ 参数模型的 FPGA 加速器:LUT-LLM
1.15.
4.2 长上下文稀疏注意力的硬件级映射:FAST-Prefill
1.16.
5. 跨越算力“百慕大”:非线性算子的查找表逼近技术
1.17.
5.1 从神经网络拟合到极值挑战:NN-LUT 的局限性
1.18.
5.2 动态规划(DP)加持下的最优求解:NLI(非均匀线性插值)
1.19.
5.3 面向全整数量化的 I-LLM 系统
1.20.
6. 系统级吞吐革新:基于查找表的投机解码(Speculative Decoding)融合
1.21.
6.1 Lyanna:隐藏状态的 LUT 实例化复用
1.22.
6.2 STAND:轨迹冗余的 N-gram 自适应查找表
1.23.
6.3 SpecMamba:状态空间模型(SSM)的 FPGA 定制化投机与重叠
1.24.
7. 移动端 NPU 与新兴存算一体(PIM)的 LUT 前沿探索
1.25.
7.1 移动 NPU 与 CPU 的 LUT 内核映射(T-MAN)
1.26.
7.2 MI-LLM:存内计算(PIM)与机器学习查表的结合
1.27.
8. 结论与未来展望
1.28.
9. 参考文献
Please enter keywords to search