Wei Hao, Zixi Wang, Lauren Hong, Lingxiao Li, Nader Karayanni, AnMei Dasbach-Prisk, Chengzhi Mao, Junfeng Yang, Asaf Cidon
Columbia University, UC San Diego
ASPLOS 2025
Presenter: wzw
Date: 2026-03-27
weather / location / device 等 drift 悄悄下降。Cityscapes 上, 相比 adapt-all 平均精度最高多 19.4%, drifted data 最高多 49.5%。adapt-all, 不同分布会相互污染, 适配反而可能变差。detect -> diagnose -> adapt -> redeploy 串起来的系统闭环。{location, weather, device id, time, model version} 聚合成 drift log, 就能在云端寻找高风险 attribute set。
0.9, 因为在 Animals 数据上其 F1 在该区域最稳, 峰值约 0.73。
{snow}, {snow, New York}, {New York}。L(\theta; x) = -\sum_c p_{\theta}(\hat{y}_c|x)\log p_{\theta}(\hat{y}_c|x)。ResNet50, BN = 0.4MB, full model = 92MB, 小约 217x。MSP 判断本条输入是否疑似 drift。drift bit + metadata, 并抽样上传少量原始输入到云端。FIM -> set reduction -> counterfactual, 找出显著 root causes。| 开销项 | Nazar 的做法 | 代价 |
|---|---|---|
| 设备端计算 | MSP threshold | 很轻 |
| 上传流量 | metadata + sampled inputs | 有隐私 / 带宽成本 |
| 模型存储 | 多个 BN versions | 远小于全模型多版本 |
| 云端分析 | Aurora + Lambda | 分析快 |
| 适配时延 | GPU instance 跑 adaptation | 总体偏慢 |
46s, 但完整 adaptation 闭环平均 50 min。Cityscapes 自驾车场景, Animals 物种识别场景。ResNet18 / 34 / 50。16 种 corruption; 端到端主要用 rain / snow / fog; 还评估了 class skew。adapt-all 和 no-adapt。
MSP detector 在 Animals 上峰值 F1 = 0.73, 在阈值 0.9 左右较稳定。F1 = 0.67, precision = 0.55, recall = 0.88。FIM 的 FMS = 0.773, 加 Set Reduction + CF 后提升到 0.874。
By-cause (TENT) = 61.5%, 显著高于 Adapt-all 的 42.4% 和 No-adapt 的 38.7%。By-cause 仍有 54.3%, 仍显著强于 42.0%。
Cityscapes 上, Nazar 对 全部数据 的平均精度相对 adapt-all 提升 10.1%~19.4%。ResNet18 上最高 49.5%, ResNet34 上 37.6%。1.3%~9.7%, 且设备端模型版本数更高。
adapt-all 的优势越大, 最多 3.8%~10.4%。class skew 严重时 Nazar 可能不如 adapt-all: 它擅长 metadata-visible drift, 不擅长所有 latent drift。adapt-all 确实更稳、更准、也更省模型版本。detect -> diagnose -> adapt 的系统闭环完整, 结果也确实支持 by-cause 设计。50 min adaptation latency 也偏长。cost-aware triggering, 或把 hard routing 扩展成 mixture-of-adapters / soft selection。