Cloud Resource Scheduling With Deep Reinforcement Learning and Imitation Learning

论文笔记 - 基于深度强化学习与模仿学习的云资源调度

这篇论文的核心目标,是在云资源调度场景下,用 模仿学习 + 深度强化学习 的两阶段方法提升在线调度性能。作者提出 DeepRM_Plus,在 DeepRM 基础上引入行为克隆初始化与更强的 CNN 状态编码,以缓解纯强化学习从零探索时训练慢、收敛慢的问题。论文实验表明,DeepRM_Plus 相比 DeepRM 收敛更快,并在平均加权周转时间与平均循环时间两个指标上取得更优结果。

阅读更多