2026-03-10发表2026-03-17更新论文阅读32 分钟读完 (大约4763个字)

An online algorithm for combined computing workload and energy coordination within a regional data center cluster

论文笔记 - 一种区域数据中心集群内联合计算工作负载和能源协调的在线算法

这篇论文的核心目标，是在区域数据中心集群场景下，同时协调计算任务分配与能源流动，提出一种无需未来预测信息的在线优化算法。论文特别强调两个问题：第一，如何在不知道未来负载、光伏出力和电价的条件下实时决策；第二，如何在分布式实现时兼顾求解效率。为此，作者提出了基于 Lyapunov optimization 的在线算法，以及一种带迭代截断与后续修正的加速 ADMM 分布式协调方法。

基本信息

题目：An online algorithm for combined computing workload and energy coordination within a regional data center cluster

期刊：International Journal of Electrical Power and Energy Systems

年份：2024

作者：Shihan Huang, Dongxiang Yan, Yue Chen

核心关键词：数据中心、Lyapunov优化、在线算法、能量共享、分布式协调、ADMM

背景与问题

背景

随着区域级数据中心集群的发展，多个数据中心往往共同服务同一城市或大区域，以满足低时延业务需求。但与此同时，数据中心能耗快速增长，光伏等可再生能源出力又存在明显波动，仅依靠本地储能难以完全消除供需错配，因此需要在区域层面同时协调任务流和能量流。论文指出，这种联合协调有助于降低运行成本和碳排放，并提升资源利用效率。

核心矛盾

这篇论文实际解决的是一个典型的“算力-能源联合在线协调”问题：

计算侧：不同前端接入的任务到达具有随机性，后端数据中心处理能力有限；
能源侧：各数据中心具备光伏、储能以及与电网/其他数据中心交易能量的能力，但可再生能源具有波动性；
调度侧：离线优化虽然能做全局最优，但实际中拿不到未来完整信息；
实现侧：即使得到了在线优化模型，集中式求解在实际多数据中心场景中也可能过慢。

因此，作者希望得到一种既在线、又可分布式落地、还能保证队列和电池状态不越界的方法。

论文的主要创新点

作者的贡献可以概括为以下两点。

提出了无预测的在线联合协调算法

论文基于 Lyapunov 优化设计了一个prediction-free 在线算法，每个时段的决策仅依赖当前信息，不需要未来电价、未来光伏、未来任务负载预测。更关键的是，作者设计了新的虚拟队列，使得即使在线优化模型中没有显式保留所有时间耦合约束，也依然能够保证工作负载队列和电池能量水平不超过物理边界。

提出了加速的 ADMM 分布式协调方法

针对能量共享下的分布式求解问题，作者提出了基于 ADMM 的分布式算法，并通过迭代截断 + 后续修正方式进行加速。实验显示，该方法在保持近似最优的同时，将计算时间相较传统 ADMM 降低了 61%。

论文整体技术路线

论文的技术路线可以概括为：

建立区域数据中心集群的任务流模型和能量流模型；
构建离线、集中式的长期平均成本最小化模型；
将原始问题中的时间耦合约束转化为时间平均约束，并改写为适合 Lyapunov 处理的形式；
构造前端任务、后端任务和电池状态三类虚拟队列；
通过 drift-plus-penalty 方法把长期优化问题转化为逐时隙在线优化问题；
进一步设计 ADMM 分布式求解框架；
引入加速机制，降低 ADMM 在少数极端时段的迭代开销；
通过对比实验验证算法在成本、约束满足与计算效率上的优势。

论文方法

系统模型

论文考虑的是一个区域数据中心集群，包含三类角色：

Front Ends（前端映射节点）：接收外部工作负载请求，并将任务分发到后端；
Back Ends（后端数据中心）：负责实际处理工作负载，具备光伏、电池储能、购售电和与其他数据中心共享能量的能力；
Power Grid（电网）：提供购电/售电接口，同时作为能量共享协调者。

这个系统的关键特征，是任务流和能量流同时存在，而且彼此耦合：处理更多任务意味着更高电耗，光伏和储能状态又反过来影响数据中心的处理与交易决策。

工作负载流建模

论文将工作负载在前端和后端分别建模为队列系统。

前端队列：本时隙接收任务，随后将部分任务分发至后端；
后端队列：接收来自前端的任务，并在本时隙完成部分处理。

队列动态的本质是：

前端下一时刻队列 = 当前前端队列 + 接收量 − 转发量；
后端下一时刻队列 = 当前后端队列 + 接收量 − 处理量。

作者还显式设置了：

接收任务上界；
前后端转发量上界；
后端处理能力上界；
前端/后端队列物理容量上界。

这说明论文不是仅把任务当作抽象负载，而是把任务积压、转发和处理过程完整纳入模型。

能量流建模

后端数据中心的能量流包括以下几个部分：

从主网购电；
向主网售电；
电池充电与放电；
与其他数据中心进行点对点能量共享；
利用本地光伏发电。

其中，电池能量动态满足跨时隙演化关系，点对点能量共享满足互逆约束和交易容量约束；后端功率平衡由购电、售电、储能充放电、光伏出力和共享能量共同决定。

这一部分非常重要，因为它表明论文讨论的不是简单的任务调度，而是算力任务与能源管理一体化协调。

成本函数与离线模型

论文总成本由四部分组成：

电网购售电成本；
电池充放电损耗成本；
任务转发带宽成本；
拒绝任务带来的损失成本。

在此基础上，作者建立了离线集中式问题 P1，目标是最小化全时域的长期平均期望总成本。但该模型需要已知整个时间范围内的未来信息，因此难以在真实系统中使用。

从离线到在线：Lyapunov 优化的核心思路

原始问题难点在于存在明显的时间耦合约束：

任务队列在相邻时隙间演化；
电池能量在相邻时隙间演化。

为此，论文先把原问题中的时序约束替换为等价的时间平均约束，得到适合 Lyapunov 框架处理的松弛问题 (P1’)。然后，通过构造虚拟队列，把长期平均约束转化为“队列稳定性”问题，再用 drift-plus-penalty 方法实现逐时隙在线求解。

虚拟队列设计：这篇论文最关键的技术点

作者指出，传统虚拟队列构造方法虽然简单，但无法保证真实工作负载队列不超过物理上界。因此，论文重新设计了三类虚拟队列：

前端工作负载虚拟队列；
后端工作负载虚拟队列；
电池虚拟队列。

与传统“”型虚拟队列不同，这里直接用真实物理状态减去偏置参数构造队列。这样做的本质，是把“物理边界”嵌入到 Lyapunov 控制框架中，使得在线优化虽然不显式保留所有队列上界约束，但最终解依然能满足这些物理限制。

这是本文相对于常规 Lyapunov 在线优化最有价值的创新之一。

在线问题 P2：逐时隙求解

在 drift-plus-penalty 处理后，作者得到逐时隙优化问题：

其中：

对应 Lyapunov 漂移上界，反映虚拟队列稳定性；
是本时隙的实际运行成本；
是权衡参数，用于平衡“成本最优”和“队列稳定”。

此时，原问题中的时间耦合被消除了，P2 可以在每个时隙独立在线求解。

理论保证

论文给出了 Proposition 1：在给定参数条件下，P2 的最优解可以自动满足原问题中的前端队列上界、后端队列上界以及电池能量上下界。

这意味着：

在线模型里删除了部分显式时间耦合约束；
但通过虚拟队列设计和参数设置，真实系统状态仍不会越界。

这一点很关键，因为很多在线算法只能保证“均值稳定”或“渐近稳定”，却不能直接保证物理可行性。而本文在这一点上给出了更强的约束保证。

分布式实现：加速 ADMM

由于能量共享引入了多数据中心之间的耦合，集中式求解不利于实际部署。作者因此设计了基于 ADMM 的分布式协调框架。

但标准 ADMM 存在一个现实问题：虽然大多数时隙迭代次数不高，但在少数极端时隙，可能需要高达 1000 次迭代，无法满足实时控制需求。论文据此提出：

设置迭代阈值 (N=50)；
超过阈值后停止传统 ADMM 迭代；
再通过后续设计好的修正步骤平衡任务和能量。

实验表明，当阈值取 50 时，截断前后关键变量的最大相对误差低于 0.2%，说明该阈值选择是合理的。

实验设计与结果

对比算法

论文将所提算法与多个 benchmark 进行比较：

B1：离线最优模型；
B2 / B3：在线对比算法；
B4：不能保证物理队列约束的对比方法。

这里最重要的对比不是单纯比成本，而是同时比较：

队列是否有界；
成本是否更低；
分布式实现是否更快。

队列约束验证

实验结果显示，所提算法可以使前端工作负载队列始终保持在物理边界内；而 B4 的前端队列会持续增长并远超物理限制。

这验证了论文最核心的理论点：新虚拟队列设计确实把“物理上界可满足”落实到了算法行为上。

成本表现

论文给出的累计总成本结果表明：

相比 B2，所提方法总成本下降 12%；
相比 B3，总成本下降 2%；
虽然离线模型 B1 成本最低，但由于需要未来完整信息，实际可用性较低。

同时，所提方法与离线最优之间的时间平均 gap 在仿真结束时为 655 USD，且低于理论上界，从而验证了性能保证命题。

从表格结果看，所提算法总成本为 7.132 million USD，低于 B2 的 7.864 million USD 和 B3 的 7.281 million USD。

参数 (V) 的影响

作者进一步分析了 Lyapunov 权衡参数 (V) 的作用。结果表明：

V 越大，总成本越低；
但 V 越小，算法越强调虚拟队列稳定，电池充放电更频繁，导致电池损耗成本上升。

例如，电池成本从 V=0.18 时的 USD，上升到 V=0.02 时的 USD。

这说明 V 实际上控制了“经济性”和“稳健性”之间的权衡。

P2P 能量共享的作用

论文还分析了点对点能量共享上界的影响。结果显示，随着可共享能量上界增加，系统总成本下降。原因在于：

缺电的数据中心可以优先从其他数据中心购能，而不是从主网高价购电；
富余能量的数据中心可以优先卖给其他数据中心，而不是低价卖回电网。

因此，能量共享机制本身就具有明显的经济性价值。

分布式求解效率与可扩展性

在 ADMM 加速实验中，论文表明：

传统 ADMM 在极端时隙可能需要上千次迭代；
加速算法采用阈值截断后，结果与集中式解几乎重合；
与传统 ADMM 相比，计算时间减少超过 61%；
当系统规模扩展到更多前端和后端节点时，每个 agent 的计算时间仍可接受，适合实时数据中心运行。

这意味着作者不仅在“算法理论”上完成了闭环，也考虑了“工程落地”的可行性。

论文优点

1. 问题建模完整

论文把任务流、能量流、购售电、储能、P2P 能量共享都放进了统一框架，系统建模较完整。

2. 在线优化思路扎实

相较于依赖预测的 MPC 或训练数据驱动方法，Lyapunov 在线优化更适合这类强随机、强时变场景。论文也明确强调其方法是 prediction-free。

3. 物理约束保证是亮点

作者不仅让算法“能跑”，还解决了很多在线算法忽略的关键问题：真实队列和电池状态是否超界。这一点非常有价值。

4. 兼顾理论与实现

论文既有性能上界，也有分布式实现和加速策略，整体比较完整。

论文局限

1. 任务模型仍较粗粒度

本文任务建模仍主要是“流量式”工作负载，没有更细地刻画任务依赖、任务类型异质性、迁移状态、SLA等级差异等更复杂属性。

2. 优化目标偏经济成本

论文主要优化总运行成本，虽然背景中提到碳排放，但并未将碳约束或碳目标显式纳入主模型。

3. 对网络侧建模较轻

虽然考虑了前后端带宽成本，但对跨数据中心任务迁移的时延、拥塞、链路不确定性等网络因素刻画仍然较弱。

4. 场景仍偏数据中心内部协调

该文的空间范围主要是“区域数据中心集群”，更适合作为省域算电协同研究中的一个局部基础模型，而不是完整的省域电-算-网多层级调控框架。

对当前研究的启发

结合我们现在在做的“基于计算任务调度的算力负荷灵活响应技术研究”以及“基于扩散模型强化学习的电力指令计算负荷响应算法”，这篇论文对我们有几方面直接启发。

1. 可以借鉴它的“任务流 + 能量流”统一建模框架

我们当前课题中也需要把电力指令映射到任务调度动作，这篇论文提供了一个很好的基础建模模板。我们可以将其扩展为：

前端任务接入与分类；
后端节点算力执行；
电力侧指令约束；
功率响应偏差队列；
迁移成本与 SLA 风险建模。

2. 可以借鉴它的虚拟队列设计思想

我们现在最需要的不只是“调度策略”，而是“带约束保证的调度策略”。这篇论文说明，合理设计虚拟队列后，可以把长期约束转成在线可控对象。我们可以据此设计：

电力指令跟踪误差虚拟队列；
SLA 违约风险虚拟队列；
迁移代价预算虚拟队列；
碳预算虚拟队列。

3. 可以作为我们强化学习方案的理论支撑基线

如果我们要写“扩散模型 + 强化学习”，那纯学习方法容易被质疑约束保证不足。这篇论文提供了一条很好的思路：先用 Lyapunov 框架定义长期约束结构，再把学习算法放到在线决策层做策略近似或策略增强。

这和我们现在关注的“扩散模型强化学习”方向是可以衔接的。

4. 可以借鉴其分布式落地思路

我们的项目里有“装置-云网”联动和辅助决策装置开发任务，而本文的 ADMM 分布式协调机制，可以作为我们后续“省级控制节点—园区节点—边缘执行装置”分层协调设计的参考。

总结

这篇论文的价值不在于提出了最复杂的智能算法，而在于它非常扎实地解决了一个关键问题：

如何在不知道未来信息的情况下，对区域数据中心集群中的任务流与能量流进行在线联合协调，并同时保证物理约束可满足与分布式实现可落地。

#算网调度电算协同 lyapunov ADMM 在线算法