An online algorithm for combined computing workload and energy coordination within a regional data center cluster
论文笔记 - 一种区域数据中心集群内联合计算工作负载和能源协调的在线算法
这篇论文的核心目标,是在区域数据中心集群场景下,同时协调计算任务分配与能源流动,提出一种无需未来预测信息的在线优化算法。论文特别强调两个问题:第一,如何在不知道未来负载、光伏出力和电价的条件下实时决策;第二,如何在分布式实现时兼顾求解效率。为此,作者提出了基于 Lyapunov optimization 的在线算法,以及一种带迭代截断与后续修正的加速 ADMM 分布式协调方法。
基本信息
题目:An online algorithm for combined computing workload and energy coordination within a regional data center cluster
期刊:International Journal of Electrical Power and Energy Systems
年份:2024
作者:Shihan Huang, Dongxiang Yan, Yue Chen
核心关键词:数据中心、Lyapunov优化、在线算法、能量共享、分布式协调、ADMM
背景与问题
背景
随着区域级数据中心集群的发展,多个数据中心往往共同服务同一城市或大区域,以满足低时延业务需求。但与此同时,数据中心能耗快速增长,光伏等可再生能源出力又存在明显波动,仅依靠本地储能难以完全消除供需错配,因此需要在区域层面同时协调任务流和能量流。论文指出,这种联合协调有助于降低运行成本和碳排放,并提升资源利用效率。
核心矛盾
这篇论文实际解决的是一个典型的“算力-能源联合在线协调”问题:
- 计算侧:不同前端接入的任务到达具有随机性,后端数据中心处理能力有限;
- 能源侧:各数据中心具备光伏、储能以及与电网/其他数据中心交易能量的能力,但可再生能源具有波动性;
- 调度侧:离线优化虽然能做全局最优,但实际中拿不到未来完整信息;
- 实现侧:即使得到了在线优化模型,集中式求解在实际多数据中心场景中也可能过慢。
因此,作者希望得到一种既在线、又可分布式落地、还能保证队列和电池状态不越界的方法。
论文的主要创新点
作者的贡献可以概括为以下两点。
提出了无预测的在线联合协调算法
论文基于 Lyapunov 优化设计了一个prediction-free 在线算法,每个时段的决策仅依赖当前信息,不需要未来电价、未来光伏、未来任务负载预测。更关键的是,作者设计了新的虚拟队列,使得即使在线优化模型中没有显式保留所有时间耦合约束,也依然能够保证工作负载队列和电池能量水平不超过物理边界。
提出了加速的 ADMM 分布式协调方法
针对能量共享下的分布式求解问题,作者提出了基于 ADMM 的分布式算法,并通过迭代截断 + 后续修正方式进行加速。实验显示,该方法在保持近似最优的同时,将计算时间相较传统 ADMM 降低了 61%。
论文整体技术路线
论文的技术路线可以概括为:
- 建立区域数据中心集群的任务流模型和能量流模型;
- 构建离线、集中式的长期平均成本最小化模型;
- 将原始问题中的时间耦合约束转化为时间平均约束,并改写为适合 Lyapunov 处理的形式;
- 构造前端任务、后端任务和电池状态三类虚拟队列;
- 通过 drift-plus-penalty 方法把长期优化问题转化为逐时隙在线优化问题;
- 进一步设计 ADMM 分布式求解框架;
- 引入加速机制,降低 ADMM 在少数极端时段的迭代开销;
- 通过对比实验验证算法在成本、约束满足与计算效率上的优势。
论文方法
系统模型
论文考虑的是一个区域数据中心集群,包含三类角色:
- Front Ends(前端映射节点):接收外部工作负载请求,并将任务分发到后端;
- Back Ends(后端数据中心):负责实际处理工作负载,具备光伏、电池储能、购售电和与其他数据中心共享能量的能力;
- Power Grid(电网):提供购电/售电接口,同时作为能量共享协调者。
这个系统的关键特征,是任务流和能量流同时存在,而且彼此耦合:处理更多任务意味着更高电耗,光伏和储能状态又反过来影响数据中心的处理与交易决策。
工作负载流建模
论文将工作负载在前端和后端分别建模为队列系统。
- 前端队列:本时隙接收任务,随后将部分任务分发至后端;
- 后端队列:接收来自前端的任务,并在本时隙完成部分处理。
队列动态的本质是:
- 前端下一时刻队列 = 当前前端队列 + 接收量 − 转发量;
- 后端下一时刻队列 = 当前后端队列 + 接收量 − 处理量。
作者还显式设置了:
- 接收任务上界;
- 前后端转发量上界;
- 后端处理能力上界;
- 前端/后端队列物理容量上界。
这说明论文不是仅把任务当作抽象负载,而是把任务积压、转发和处理过程完整纳入模型。
能量流建模
后端数据中心的能量流包括以下几个部分:
- 从主网购电;
- 向主网售电;
- 电池充电与放电;
- 与其他数据中心进行点对点能量共享;
- 利用本地光伏发电。
其中,电池能量动态满足跨时隙演化关系,点对点能量共享满足互逆约束和交易容量约束;后端功率平衡由购电、售电、储能充放电、光伏出力和共享能量共同决定。
这一部分非常重要,因为它表明论文讨论的不是简单的任务调度,而是算力任务与能源管理一体化协调。
成本函数与离线模型
论文总成本由四部分组成:
- 电网购售电成本;
- 电池充放电损耗成本;
- 任务转发带宽成本;
- 拒绝任务带来的损失成本。
在此基础上,作者建立了离线集中式问题 P1,目标是最小化全时域的长期平均期望总成本。但该模型需要已知整个时间范围内的未来信息,因此难以在真实系统中使用。
从离线到在线:Lyapunov 优化的核心思路
原始问题难点在于存在明显的时间耦合约束:
- 任务队列在相邻时隙间演化;
- 电池能量在相邻时隙间演化。
为此,论文先把原问题中的时序约束替换为等价的时间平均约束,得到适合 Lyapunov 框架处理的松弛问题 (P1’)。然后,通过构造虚拟队列,把长期平均约束转化为“队列稳定性”问题,再用 drift-plus-penalty 方法实现逐时隙在线求解。
虚拟队列设计:这篇论文最关键的技术点
作者指出,传统虚拟队列构造方法虽然简单,但无法保证真实工作负载队列不超过物理上界。因此,论文重新设计了三类虚拟队列:
- 前端工作负载虚拟队列
; - 后端工作负载虚拟队列
; - 电池虚拟队列
。
与传统“
这是本文相对于常规 Lyapunov 在线优化最有价值的创新之一。
在线问题 P2:逐时隙求解
在 drift-plus-penalty 处理后,作者得到逐时隙优化问题:
其中:
对应 Lyapunov 漂移上界,反映虚拟队列稳定性; 是本时隙的实际运行成本; 是权衡参数,用于平衡“成本最优”和“队列稳定”。
此时,原问题中的时间耦合被消除了,P2 可以在每个时隙独立在线求解。
理论保证
论文给出了 Proposition 1:在给定参数条件下,P2 的最优解可以自动满足原问题中的前端队列上界、后端队列上界以及电池能量上下界。
这意味着:
- 在线模型里删除了部分显式时间耦合约束;
- 但通过虚拟队列设计和参数设置,真实系统状态仍不会越界。
这一点很关键,因为很多在线算法只能保证“均值稳定”或“渐近稳定”,却不能直接保证物理可行性。而本文在这一点上给出了更强的约束保证。
分布式实现:加速 ADMM
由于能量共享引入了多数据中心之间的耦合,集中式求解不利于实际部署。作者因此设计了基于 ADMM 的分布式协调框架。
但标准 ADMM 存在一个现实问题:虽然大多数时隙迭代次数不高,但在少数极端时隙,可能需要高达 1000 次迭代,无法满足实时控制需求。论文据此提出:
- 设置迭代阈值 (N=50);
- 超过阈值后停止传统 ADMM 迭代;
- 再通过后续设计好的修正步骤平衡任务和能量。
实验表明,当阈值取 50 时,截断前后关键变量的最大相对误差低于 0.2%,说明该阈值选择是合理的。
实验设计与结果
对比算法
论文将所提算法与多个 benchmark 进行比较:
- B1:离线最优模型;
- B2 / B3:在线对比算法;
- B4:不能保证物理队列约束的对比方法。
这里最重要的对比不是单纯比成本,而是同时比较:
- 队列是否有界;
- 成本是否更低;
- 分布式实现是否更快。
队列约束验证
实验结果显示,所提算法可以使前端工作负载队列始终保持在物理边界内;而 B4 的前端队列会持续增长并远超物理限制。
这验证了论文最核心的理论点:新虚拟队列设计确实把“物理上界可满足”落实到了算法行为上。
成本表现
论文给出的累计总成本结果表明:
- 相比 B2,所提方法总成本下降 12%;
- 相比 B3,总成本下降 2%;
- 虽然离线模型 B1 成本最低,但由于需要未来完整信息,实际可用性较低。
同时,所提方法与离线最优之间的时间平均 gap 在仿真结束时为 655 USD,且低于理论上界,从而验证了性能保证命题。
从表格结果看,所提算法总成本为 7.132 million USD,低于 B2 的 7.864 million USD 和 B3 的 7.281 million USD。
参数 (V) 的影响
作者进一步分析了 Lyapunov 权衡参数 (V) 的作用。结果表明:
- V 越大,总成本越低;
- 但 V 越小,算法越强调虚拟队列稳定,电池充放电更频繁,导致电池损耗成本上升。
例如,电池成本从 V=0.18 时的
这说明 V 实际上控制了“经济性”和“稳健性”之间的权衡。
P2P 能量共享的作用
论文还分析了点对点能量共享上界
- 缺电的数据中心可以优先从其他数据中心购能,而不是从主网高价购电;
- 富余能量的数据中心可以优先卖给其他数据中心,而不是低价卖回电网。
因此,能量共享机制本身就具有明显的经济性价值。
分布式求解效率与可扩展性
在 ADMM 加速实验中,论文表明:
- 传统 ADMM 在极端时隙可能需要上千次迭代;
- 加速算法采用阈值截断后,结果与集中式解几乎重合;
- 与传统 ADMM 相比,计算时间减少超过 61%;
- 当系统规模扩展到更多前端和后端节点时,每个 agent 的计算时间仍可接受,适合实时数据中心运行。
这意味着作者不仅在“算法理论”上完成了闭环,也考虑了“工程落地”的可行性。
论文优点
1. 问题建模完整
论文把任务流、能量流、购售电、储能、P2P 能量共享都放进了统一框架,系统建模较完整。
2. 在线优化思路扎实
相较于依赖预测的 MPC 或训练数据驱动方法,Lyapunov 在线优化更适合这类强随机、强时变场景。论文也明确强调其方法是 prediction-free。
3. 物理约束保证是亮点
作者不仅让算法“能跑”,还解决了很多在线算法忽略的关键问题:真实队列和电池状态是否超界。这一点非常有价值。
4. 兼顾理论与实现
论文既有性能上界,也有分布式实现和加速策略,整体比较完整。
论文局限
1. 任务模型仍较粗粒度
本文任务建模仍主要是“流量式”工作负载,没有更细地刻画任务依赖、任务类型异质性、迁移状态、SLA等级差异等更复杂属性。
2. 优化目标偏经济成本
论文主要优化总运行成本,虽然背景中提到碳排放,但并未将碳约束或碳目标显式纳入主模型。
3. 对网络侧建模较轻
虽然考虑了前后端带宽成本,但对跨数据中心任务迁移的时延、拥塞、链路不确定性等网络因素刻画仍然较弱。
4. 场景仍偏数据中心内部协调
该文的空间范围主要是“区域数据中心集群”,更适合作为省域算电协同研究中的一个局部基础模型,而不是完整的省域电-算-网多层级调控框架。
对当前研究的启发
结合我们现在在做的“基于计算任务调度的算力负荷灵活响应技术研究”以及“基于扩散模型强化学习的电力指令计算负荷响应算法”,这篇论文对我们有几方面直接启发。
1. 可以借鉴它的“任务流 + 能量流”统一建模框架
我们当前课题中也需要把电力指令映射到任务调度动作,这篇论文提供了一个很好的基础建模模板。我们可以将其扩展为:
- 前端任务接入与分类;
- 后端节点算力执行;
- 电力侧指令约束;
- 功率响应偏差队列;
- 迁移成本与 SLA 风险建模。
2. 可以借鉴它的虚拟队列设计思想
我们现在最需要的不只是“调度策略”,而是“带约束保证的调度策略”。这篇论文说明,合理设计虚拟队列后,可以把长期约束转成在线可控对象。我们可以据此设计:
- 电力指令跟踪误差虚拟队列;
- SLA 违约风险虚拟队列;
- 迁移代价预算虚拟队列;
- 碳预算虚拟队列。
3. 可以作为我们强化学习方案的理论支撑基线
如果我们要写“扩散模型 + 强化学习”,那纯学习方法容易被质疑约束保证不足。这篇论文提供了一条很好的思路: 先用 Lyapunov 框架定义长期约束结构,再把学习算法放到在线决策层做策略近似或策略增强。
这和我们现在关注的“扩散模型强化学习”方向是可以衔接的。
4. 可以借鉴其分布式落地思路
我们的项目里有“装置-云网”联动和辅助决策装置开发任务,而本文的 ADMM 分布式协调机制,可以作为我们后续“省级控制节点—园区节点—边缘执行装置”分层协调设计的参考。
总结
这篇论文的价值不在于提出了最复杂的智能算法,而在于它非常扎实地解决了一个关键问题:
如何在不知道未来信息的情况下,对区域数据中心集群中的任务流与能量流进行在线联合协调,并同时保证物理约束可满足与分布式实现可落地。