Carbon-Aware Task Scheduling in Distributed Computing Continuum: A Lyapunov-Guided Reinforcement Learning Approach

论文笔记 - 在分布式计算连续体中的碳感知任务调度:一种基于李雅普诺夫的强化学习方法

这篇论文的核心目标,是在 Distributed Computing Continuum(DCC) 场景下,把“实时任务调度”与“长期碳预算约束”统一起来。作者提出了一种 Lyapunov 虚拟碳队列 + 动态权重 PPO + 节点内凸优化切片 的双层调度框架,用于在异构云—雾—边环境中实现低时延、低碳排、可长期约束满足的任务调度。

基本信息

题目:Carbon-Aware Task Scheduling in Distributed Computing Continuum: A Lyapunov-Guided Reinforcement Learning Approach

会议/出版:NPC 2025, LNCS 16305, Springer

年份:2026

作者:Shujia Niu, Zhenli He, Yuanfei Xiao, Yuxaun Nie, Yao Chen, Bingning Liu

核心关键词:碳感知调度、分布式计算连续体(DCC)、Lyapunov 优化、PPO、虚拟队列、资源切片

背景与问题

背景

论文指出,随着云、雾、边缘资源不断融合,DCC 正成为承载 AI 推理、沉浸式媒体、IoT 等业务的重要基础设施。但与此同时,分布式节点规模扩大、业务量上升以及资源异构性增强,也使其能耗和碳排放迅速增长,碳约束已经逐渐成为未来调度系统必须正面处理的问题。

核心问题

作者认为,现有任务调度方法虽然已经开始考虑时延、能耗甚至碳强度,但仍然存在三个关键矛盾:

  1. 实时任务决策长期碳预算约束 之间存在时间尺度错配;
  2. 低能耗 不等于 低碳排,因为电网碳强度具有时空差异;
  3. 许多 强化学习调度器 只优化即时奖励,却缺乏对长期碳约束满足性的明确保证。

论文要解决的本质问题

这篇论文实际上在解决一个典型的“短期性能目标”与“长期环境约束”并存的调度问题:

  • 短期目标:让任务尽可能低时延完成;
  • 长期目标:累计碳排不能超过给定预算;
  • 挑战:如何把长期碳约束转化为调度器每个时隙都能感知和利用的控制信号。

论文的主要创新点

作者在引言和方法部分给出的贡献,可以概括为以下三点。

设计了 Lyapunov 引导的虚拟碳队列

作者构造了一个 虚拟碳队列,把原本跨整个时间域的累计碳预算,转化为每个调度时隙都可观测、可调节的状态量,使长期约束得以在线化。

将虚拟队列嵌入动态权重 PPO 调度器

作者将虚拟碳队列作为强化学习状态的一部分,并据此动态调节调度目标中时延与碳排之间的权衡,使 PPO 策略可以根据当前“碳积压压力”自适应决策。

在节点内部加入闭式凸优化资源切片

在上层任务放置完成后,作者进一步在每个节点内部通过一个闭式凸优化器,为不同类别任务切分 CPU 资源,从而进一步降低执行时延。这样形成了“全局学习决策 + 局部解析优化”的双层结构。

论文整体技术路线

根据论文结构,其技术路线可以概括为:

  1. 建立 DCC 中异构节点的资源模型;
  2. 建立任务时延模型、能耗模型和碳排模型;
  3. 构造带长期碳预算约束的任务调度优化问题;
  4. 用 Lyapunov 虚拟队列将长期碳约束转化为逐时隙控制目标;
  5. 用动态权重 PPO 实现任务在线放置;
  6. 用节点内凸优化完成本地资源切片;
  7. 在 100 节点 DCC 仿真环境中验证方法性能。

论文方法

资源模型

论文将 DCC 建模为由多个异构节点组成的集合,每个节点具有计算能力、带宽、发射功率等参数。作者试图统一描述云节点、雾节点和边缘节点,使任务可以在不同层级的节点之间分配执行。

任务与时延建模

每个任务由两类核心需求表征:

  • 计算需求
  • 输入数据量

总时延由三部分构成:

  • 传输时延;
  • 执行时延;
  • 排队时延。

此外,作者根据任务特征将其分为三类:

  • 计算密集型任务
  • 数据密集型任务
  • 均衡型任务

这种分类主要服务于下层资源切片,因为不同类型任务对 CPU 资源的敏感性不同。

能耗与碳排建模

论文将单任务能耗分为:

  • 计算能耗;
  • 传输能耗。

然后结合运行时碳强度,计算任务的实际碳排放。这里的关键点在于,作者并没有把能耗直接当作碳排代理,而是显式引入了 carbon intensity trace,从而使“同样的能耗”在不同时间、不同节点上对应不同碳排水平。


协同优化模型:目标函数和约束

上层优化目标

论文的核心优化目标,是在给定全时间域碳预算的条件下,最小化任务平均时延。这个问题本质上要求调度器同时处理两类目标:

  • 服务性能最优
  • 长期碳约束满足

下层优化目标

对于已经放置到某节点上的任务,论文进一步求解一个节点内资源切片问题,即在不同任务类别之间分配 CPU 份额,使节点内部执行时延尽可能低。

核心约束

论文中的主要约束包括:

  • 长期累计碳排预算约束;
  • 节点资源切片比例约束;
  • 各节点局部调度可执行性约束。

核心机制:为什么要用 Lyapunov

长期约束难以直接进入即时调度

如果直接做强化学习,奖励函数通常只能看到当前一步的时延和碳排,而很难自然处理“整个调度周期内累计碳排不能超限”这种长期约束。

虚拟碳队列的作用

为了解决这个问题,作者定义了虚拟碳队列 (Q(t)):

  • 如果当前时隙碳排高于预算均摊值,队列就增长;
  • 如果当前时隙碳排较低,队列压力就缓解;
  • 队列越大,说明系统当前越“欠碳预算”。

这样一来,长期碳预算就不再是一个遥远的终局条件,而是转化为每个时隙都存在的状态反馈信号。

Drift-Plus-Penalty 思想

作者进一步将 Lyapunov 漂移与即时性能代价结合,得到逐时隙调度目标:既压低时延,又抑制当前碳排,并且碳排惩罚强度由虚拟队列动态决定。

这一步非常关键,因为它说明论文不是简单地在 RL 里加一个碳罚项,而是通过 Lyapunov 理论把长期约束系统性地嵌入到了在线决策中。


强化学习设计:PPO 如何发挥作用

状态空间

PPO 调度器观测的信息主要包括:

  • 当前虚拟碳队列状态;
  • 各节点资源状态;
  • 节点局部队列状态;
  • 当前任务需求。

动作空间

动作就是为当前任务选择执行节点,即决定“任务应该被放到哪个计算节点处理”。

动态权重机制

论文不是采用固定时延—碳排权重,而是根据虚拟队列状态动态调节权重。其意义在于:

  • 当碳积压较小时,策略更偏向优化时延;
  • 当碳积压变大时,策略会自动更重视低碳调度。

这种设计比静态 reward 加权更合理,因为不同阶段系统对碳约束的紧迫程度并不相同。


下层资源切片:为什么还要加凸优化

仅靠上层任务放置还不够

即使上层已经把任务分配到了“合适的节点”,节点内部如何为不同类型任务分配 CPU 资源,仍然会直接影响执行时延。

论文的做法

作者在每个节点内部单独求解一个资源切片问题,并得到了闭式解。其本质思想是:根据不同任务类别的聚合需求,在节点内部按比例分配资源,从而减少执行时延。

这一层的意义

这一设计说明论文不是“纯 RL 一把抓”,而是采用了更偏工程化的结构:

  • 上层学习器负责全局组合调度;
  • 下层解析优化器负责本地快速调整。

这类分层架构通常比单一大模型求解器更实用。


实验设计

仿真环境

论文在一个 100 节点 DCC 仿真器 上进行实验,场景覆盖云、雾、边缘多层节点。实验使用碳强度轨迹来驱动碳排计算。

任务负载设置

任务到达服从随机过程,任务类型比例设为:

  • 40% 计算密集型;
  • 40% 数据密集型;
  • 20% 均衡型。

对比基线

作者对比了五类方法:

  • PPO-Uniform:PPO + 均匀资源切片;
  • A2C
  • DQN
  • Greedy-Delay
  • Greedy-Carbon

关键参数

论文报告了较为完整的超参数设置,其中较关键的包括:

  • PPO 学习率
  • 基础权重
  • 队列上限
  • 调整因子
  • 队列惩罚系数

主要实验结果

学习率敏感性分析

作者首先分析了学习率的影响,结果表明:

  • 学习率过大,会导致虚拟队列波动严重、训练不稳定;
  • 学习率过小,会导致收敛太慢;
  • 是兼顾稳定性和收敛速度的较优选择。

消融实验

论文分别去掉两个核心模块:

  • 去掉 动态 Lyapunov 权重
  • 去掉 凸优化切片

结果显示:

  • 去掉凸切片后,在紧碳预算下平均时延可上升到 8.2 s
  • 使用静态权重时,在较高预算条件下更容易突破碳约束。

这说明两个模块分别承担不同职责:

  • 动态权重负责长期约束控制;
  • 凸切片负责本地时延优化。

队列稳定性分析

作者跟踪了虚拟碳队列在 (10^4) 个时隙中的演化过程。结果表明:

  • 提出方法能在初始波动后将队列维持在接近 0 的水平;
  • PPO-Uniform 因为使用固定权重,碳排更容易持续积压,存在预算违规风险。

端到端性能对比

0.15 g CO2eq 的代表性碳预算下,论文方法达到:

  • 平均时延 3.02 s
  • 累计碳排 0.14 g

相较于表现最好的 RL 基线 A2C

  • 时延降低 11%
  • 碳排降低 7%

相较于 PPO-Uniform

  • 时延降低 58%

并且在 0.125–0.20 g CO2eq 的不同碳预算区间内,该方法都表现出持续优势。


作者总结的关键发现

论文最终将实验结论概括为三点:

  1. 动态 Lyapunov 权重 优于静态权重,更适合长期约束控制;
  2. 基于凸优化的资源切片 明显优于均匀切片,能够显著降低时延;
  3. DRL 调度 相比贪心方法,更能平衡时延与碳排。

论文局限性

场景仍以仿真为主

论文虽然做了 100 节点规模的仿真,但仍然缺少真实混合云边环境下的部署验证。作者自己也将真实 edge-cloud testbed 部署列为未来工作。

碳模型仍偏简化

当前论文主要考虑运行期电能带来的碳排,没有进一步纳入:

  • 生命周期碳排;
  • 冷却系统耦合;
  • 动态碳价;
  • 电力市场机制。

任务抽象较粗

论文只将任务分为三类,并没有进一步考虑:

  • 任务依赖关系;
  • 数据本地性;
  • 容器/虚机迁移开销;
  • 训练与推理业务差异;
  • 任务可中断性与 SLA 分级。

因此它更适合作为 DCC 通用任务调度研究,而不是面向真实数据中心复杂业务的完整系统方案。

理论与学习的结合仍未完全闭合

作者虽然通过 Lyapunov 提供了长期约束控制思路,但对于“队列引导 RL 的收敛性”仍未建立完整理论,作者也明确把它作为未来研究方向。

对当前研究/项目的启发

如果把这篇论文放到我们当前的“电力指令驱动的计算负荷响应”和“算电协同调度”场景下,它至少有以下几点启发。

可以借用“虚拟队列”建模长期调节目标

论文中的 虚拟碳队列 可以自然迁移为我们场景中的:

  • 电力指令偏差队列;
  • 光伏消纳缺口队列;
  • SLA 违约风险队列;
  • 网络拥塞风险队列;
  • 迁移执行偏差队列。

这比直接在奖励函数里写一个固定罚项更有理论支撑。

可以借用“双层结构”做快慢协同调度

论文的结构很适合迁移到我们的研究中:

  • 上层:扩散模型或强化学习生成候选调度方案;
  • 下层:局部快速优化器完成节点内资源分配和执行细化。

这种设计很符合“上层复杂决策、下层轻量执行”的工程需求。

动态权重思路很值得吸收

我们的研究通常同时涉及:

  • 电力响应目标;
  • 任务 SLA;
  • 网络迁移代价;
  • 低碳或新能源消纳目标。

这些目标之间的相对优先级显然不是静态不变的。论文中“由队列状态驱动权重变化”的思路,可以成为我们后续算法设计里的一个重要亮点。

它更适合作为“方法学原型”,不是最终方案

这篇论文非常适合我们用来支撑“如何把长期系统约束嵌入在线调度器”这一方法学论证,但它本身还没有显式进入“电网调节指令—算力任务映射—装置执行闭环”的问题。因此它更适合作为我们研究中的 参考框架算法基线,而不是最终可直接套用的完整模型。

评论