Wang
Zongwu
home
archives
categories
tags
Your browser does not support HTML5 video.
NEWS LETTER
Palu_Compressing_KV-Cache_with_Low-Rank_Projection
Home
2026
Scroll down
Welcome to Zongwu's Science Hub ✨
Residence:
Shanghai
Age:
18
Contact Me
02/17
06:49
zongwu wang
请输入密码继续
Other Articles
System
Over-synchronization in GPU Programs
26/02/17
06:49
Algorithm
QUOKA_ Query-Oriented KV Selection for Efficient LLM Prefill
26/02/17
06:49
Article table of contents
TOP
1.
📑 论文元数据 (Metadata)
2.
🎯 1. 核心洞察 (Executive Summary)
3.
⚙️ 2. 技术解构 (Methodology)
3.1.
2.1 设计目标与直觉
3.2.
2.2 低秩分解策略:J-LRD / G-LRD / M-LRD
3.3.
2.3 Fisher 信息驱动的 Rank 搜索
3.4.
2.4 低秩感知量化:缓解潜在空间的 Outlier
3.5.
2.5 高效推理实现:Triton Kernel + RoPE 支持
4.
📉 3. 实验与评估 (Evaluation)
4.1.
3.1 实验设置概览
4.2.
3.2 不同分解策略的主结果
4.3.
3.3 长上下文与 LongBench
4.4.
3.4 低秩 + 量化的叠加效果
4.5.
3.5 性能与系统层结果
5.
🔍 4. 批判性思考 (Critical Review)
5.1.
4.1 创新性与定位
5.2.
4.2 方法上的潜在弱点
5.3.
4.3 实用性与可扩展性
5.4.
4.4 可能的风险与负面结果
6.
💡 5. 启发与未来工作 (Impact & Future Directions)
7.
🧠 6. 深度追问 (Questions for the Authors)
Please enter keywords to search