Cloud Resource Scheduling With Deep Reinforcement Learning and Imitation Learning
论文笔记 - 基于深度强化学习与模仿学习的云资源调度
这篇论文的核心目标,是在云资源调度场景下,用 模仿学习 + 深度强化学习 的两阶段方法提升在线调度性能。作者提出 DeepRM_Plus,在 DeepRM 基础上引入行为克隆初始化与更强的 CNN 状态编码,以缓解纯强化学习从零探索时训练慢、收敛慢的问题。论文实验表明,DeepRM_Plus 相比 DeepRM 收敛更快,并在平均加权周转时间与平均循环时间两个指标上取得更优结果。
Imitation Learning Enabled Fast and Adaptive Task Scheduling in Cloud
论文笔记 - 模仿学习增强的云任务调度方法
这篇论文提出了一个 模仿学习增强型云任务调度框架 ILETS,通过“离线专家初始化 + 在线异步专家纠偏”显著提升了 DRL 在动态云环境中的收敛速度、调度性能与鲁棒性。
CleanDiffuser: An Easy-to-use Modularized Library for Diffusion Models in Decision Making
论文笔记 - 用于任务决策的模块化扩散模型库
CleanDiffuser 不是一个新的扩散强化学习算法,而是一个面向决策问题的模块化扩散模型研究框架。它把扩散决策算法抽象成扩散主干、网络结构和引导采样三个核心模块,并补充了 masking、环境接口和高效数据加载等决策特有机制。在统一框架下,作者复现并比较了 planner、policy 和 data synthesizer 三类扩散方法,在 37 个 RL/IL 环境中总结出一些重要规律,例如 planner 路线当前仍不够成熟、采样步数增加可能导致性能下降、SDE/ODE solver 对性能影响显著等。对我们的启发是,扩散模型做决策已经具有系统方法论,但在强约束、实时性要求高的算网调度场景下,更可行的方向可能是 diffusion policy 与约束引导的结合,而不是直接生成整段调度轨迹。
Diffusion-based Reinforcement Learning for Edge-enabled AI-Generated Content Services
论文笔记 - 基于扩散的边缘增强AIGC服务强化学习
这篇论文的核心目标,是在边缘 AIGC 服务场景下,为动态到达的用户任务选择合适的 AIGC Service Provider(ASP)。作者认为,传统 DRL 在复杂离散决策问题中容易受限于探索效率和策略表达能力,因此提出用扩散模型生成动作分布,并将其嵌入 SAC,形成 D2SAC。
论文笔记 - 一种区域数据中心集群内联合计算工作负载和能源协调的在线算法
这篇论文的核心目标,是在区域数据中心集群场景下,同时协调计算任务分配与能源流动,提出一种无需未来预测信息的在线优化算法。论文特别强调两个问题:第一,如何在不知道未来负载、光伏出力和电价的条件下实时决策;第二,如何在分布式实现时兼顾求解效率。为此,作者提出了基于 Lyapunov optimization 的在线算法,以及一种带迭代截断与后续修正的加速 ADMM 分布式协调方法。
论文笔记 - 在分布式计算连续体中的碳感知任务调度:一种基于李雅普诺夫的强化学习方法
这篇论文的核心目标,是在 Distributed Computing Continuum(DCC) 场景下,把“实时任务调度”与“长期碳预算约束”统一起来。作者提出了一种 Lyapunov 虚拟碳队列 + 动态权重 PPO + 节点内凸优化切片 的双层调度框架,用于在异构云—雾—边环境中实现低时延、低碳排、可长期约束满足的任务调度。
论文笔记 - 四级联合优化调度及区域能源自治实现
本文面向数据中心需求响应问题,提出了一个融合任务时延敏感性、分层调度和故障自治的面向数据中心运营商(DCO)的四层级联合优化调度框架。其主要贡献在于:一是通过 cold/warm/hot 任务分类,将业务任务属性显式嵌入迁移层级与调度边界;二是通过 top-region-city-park 四层结构实现信息分层汇聚和任务分层优化;三是通过自治机制提升调度系统在中心失效场景下的可用性。实验结果表明,在正常工况下,该方法相较无 DR 情形可降低 32.25% 总成本,同时在不同层级调度中心故障时仍能保持较好的经济性。对我们的研究而言,这篇论文的主要启发在于:可以借鉴其任务分层、层级调度与局部自治思想,进一步发展面向电力指令驱动的任务级算力负荷灵活响应方法。
论文笔记 - 分布式鲁棒优化调度模型:考虑时空响应的电算协同
这篇论文的核心目标,是把数据中心中的计算任务建模为一种可以进行时间平移与空间迁移的柔性负荷,并在风电、光伏、计算任务三类不确定性同时存在的情况下,构建一个数据驱动的两阶段分布鲁棒优化调度模型,用于实现电力系统与算力系统的协同调度。