阅读笔记 - (NSDI'23) RECL Responsive Resource-Efficient Continuous Learning for Video Analytics
Intro
- 目前面临的问题
- First, continuous retraining consumes the vast majority of compute resources in these video analytics systems (70%–90% in our study) [20, 21], making model retraining the key bottleneck in scaling video analytics to more video streams with limited compute resources. Our study (Fig. 2) shows that accuracy drops sharply (by 40% in object detection) as 4× more cameras share the GPU cycles to retrain their models (§2.2).
- Second, it takes time to retrain specialized DNNs, and abrupt video scene changes inevitably lead to drastic accuracy drops until the retraining is completed (see Fig. 3 for an example).
- Motivation
- 重训练需要花费时间,因此可以重用过去数据训练的 DNN 来处理 【因为很多过去的数据具有时间空间上的一致性】
- 挑战
- 第一,需要快速地找到特定的 DNN 可以满足需求 => 如何说明一个 DNN 是好的呢?
- 第二,需要让重用模型的时间远低于重新训练模型 => 寻找重用模型的成本高于直接重新训练模型,因为会随着数据的增长,可以重用的模型就变多了
- 解决方案
- 总论:针对资源受限场景中的视频分析持续学习场景,将模型重用考虑进来。
- 贡献点 1:使用 MoE 方法作为模型选择器,允许 RECL 去基于视频分析任务和视频场景选择模型
- 贡献点 2:RECL 为不同的边缘设备分享 model zoo,支持动态增加新的 expert
- 贡献点 3:retraining jobs 之间共享 GPU 资源,设计一套调度算法去处理
- 效果
- Object detection mAP 的提升
- 在获取相同 mAP 条件下,时间得到了缩短