NEWS LETTER

分布式异构硬件平台计算-通信重叠算子自动生成与优化的系统性文献调研报告

Home
2026

Scroll down

Welcome to Zongwu's Science Hub ✨

Residence:

Shanghai
Age:

18

05/22

17:00

zongwu wang

请输入密码继续

Other Articles

Compression-Aware Gradient Splitting for Collective Communications in Distributed Training

26/05/22
19:43

视频生成模型研究综述notebooklm

26/05/21
12:03

Article table of contents TOP

1. 分布式深度学习框架的通信机制与技术瓶颈
2. 计算图编译与自动并行化中的通信推导与代码生成
1. 2.1. 分布式通信操作自动推断的核心机制
2. 2.2. 编译器层面的重叠算子与代码生成实现
3. 典型关键文献的结构化剖析（一）
4. 高级计算-通信重叠调度技术与依赖分析方法
5. 典型关键文献的结构化剖析（二）
6. 自定义算子、底层优化与全物理级内核融合
1. 6.1. 底层高速底层通信技术：设备端启动与对称内存
2. 6.2. 编译期自适应自动融合：Syncopate 机制
7. 典型关键文献的结构化剖析（三）
1. 7.1. 文献 7：Syncopate: Efficient Multi-GPU AI Kernels via Automatic Chunk-Centric Overlap (arXiv 2026) [12]
2. 7.2. 文献 8：T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives (ASPLOS 2024) [50, 51]
8. 异构硬件分布式编程模型与多厂商跨芯片协同
1. 8.1. 跨厂商集合通信库：HetCCL 机制
2. 8.2. 异构自适应并行计划搜索：Metis 机制
9. 典型关键文献的结构化剖析（四）
1. 9.1. 文献 9：HetCCL: Accelerating LLM Training with Heterogeneous GPUs (arXiv 2026) [53]
2. 9.2. 文献 10：Metis: Fast Automatic Distributed Training on Heterogeneous GPUs (ATC 2024) [20]
10. 典型编译与重叠技术综合特性矩阵
11. 识别研究空白与独特挑战：异构硬件下的自动算子生成
12. 结论与对我们课题的具体启发