NEWS LETTER

基于查找表(LUT)的大模型推理加速技术深度调研

Scroll down
Other Articles
Article table of contents TOP
  1. 1. 基于查找表(LUT)的大模型推理加速技术深度调研
    1. 1.1. 摘要
    2. 1.2. 1. 大模型推理的体系结构瓶颈与查找表(LUT)计算范式的崛起
    3. 1.3. 1.1 “内存墙”危机与传统解量化(Dequantization)的计算开销
    4. 1.4. 1.2 查找表(LUT)计算的核心机理与优势
    5. 1.5. 2. 通用与定制化 GPU 环境下的软件级 LUT 算子重构
    6. 1.6. 2.1 基于二进制编码量化(BCQ)的 LUT-GEMM
    7. 1.7. 2.2 针对非均匀量化优化的 FLUTE 引擎
    8. 1.8. 3. 从指令集到数据流:软硬件协同的 ASIC 架构设计
    9. 1.9. 3.1 LUT Tensor Core:对矩阵核心的底层革命
    10. 1.10. 3.2 TENET:极致的三值化(Ternary)稀疏加速架构
    11. 1.11. 3.3 FIGLUT:面向 FP-INT GEMM 的半尺寸查找表架构
    12. 1.12. 3.4 LUT-DLA:面向极低比特的向量量化与 LUT-Stationary 数据流
    13. 1.13. 4. 突破动态长上下文:现场可编程逻辑门阵列(FPGA)的流式 LUT 定制
    14. 1.14. 4.1 首个支持 1B+ 参数模型的 FPGA 加速器:LUT-LLM
    15. 1.15. 4.2 长上下文稀疏注意力的硬件级映射:FAST-Prefill
    16. 1.16. 5. 跨越算力“百慕大”:非线性算子的查找表逼近技术
    17. 1.17. 5.1 从神经网络拟合到极值挑战:NN-LUT 的局限性
    18. 1.18. 5.2 动态规划(DP)加持下的最优求解:NLI(非均匀线性插值)
    19. 1.19. 5.3 面向全整数量化的 I-LLM 系统
    20. 1.20. 6. 系统级吞吐革新:基于查找表的投机解码(Speculative Decoding)融合
    21. 1.21. 6.1 Lyanna:隐藏状态的 LUT 实例化复用
    22. 1.22. 6.2 STAND:轨迹冗余的 N-gram 自适应查找表
    23. 1.23. 6.3 SpecMamba:状态空间模型(SSM)的 FPGA 定制化投机与重叠
    24. 1.24. 7. 移动端 NPU 与新兴存算一体(PIM)的 LUT 前沿探索
    25. 1.25. 7.1 移动 NPU 与 CPU 的 LUT 内核映射(T-MAN)
    26. 1.26. 7.2 MI-LLM:存内计算(PIM)与机器学习查表的结合
    27. 1.27. 8. 结论与未来展望
    28. 1.28. 9. 参考文献
Please enter keywords to search