A novel 4-level joint optimal dispatch for demand response of data centers with district autonomy realization
论文笔记 - 四级联合优化调度及区域能源自治实现
本文面向数据中心需求响应问题,提出了一个融合任务时延敏感性、分层调度和故障自治的面向数据中心运营商(DCO)的四层级联合优化调度框架。其主要贡献在于:一是通过 cold/warm/hot 任务分类,将业务任务属性显式嵌入迁移层级与调度边界;二是通过 top-region-city-park 四层结构实现信息分层汇聚和任务分层优化;三是通过自治机制提升调度系统在中心失效场景下的可用性。实验结果表明,在正常工况下,该方法相较无 DR 情形可降低 32.25% 总成本,同时在不同层级调度中心故障时仍能保持较好的经济性。对我们的研究而言,这篇论文的主要启发在于:可以借鉴其任务分层、层级调度与局部自治思想,进一步发展面向电力指令驱动的任务级算力负荷灵活响应方法。
基本信息
- 题目:A novel 4-level joint optimal dispatch for demand response of data centers with district autonomy realization
- 作者:Ouzhu Han, Tao Ding, Miao Yang, Wenhao Jia, Xinran He, Zhoujun Ma
- 期刊:Applied Energy
- 年份:2024
- 关键词:四级联合优化调度方法、任务时延敏感性、调度自主机制、数据中心
研究背景与问题定义
背景
随着数据中心业务量增长,其电力消耗快速上升,已经成为重要的大负荷主体。论文指出,数据中心不仅是高耗能主体,而且由于计算任务具有时间可转移和空间可迁移的特征,因此天然适合参与需求响应。
现有工作不足
作者认为已有研究主要存在三类不足:
- 多采用两层集中式调度
- 依赖顶层中心调度器;
- 信息和任务全部汇聚到顶层,通信和计算压力大。
- 缺少对任务时延敏感性的精细建模
- 很多工作虽然研究任务迁移,但没有把任务的时延容忍度系统地嵌入调度层级与迁移边界中。
- 很少考虑调度中心故障后的自治能力
- 一旦中心调度器失效,传统集中式架构往往不能继续优化运行。
论文核心创新
作者总结了三点主要贡献:
四层联合优化调度框架
提出top-region-city-park四层调度体系,依次是:
- 顶层调度中心
- 区域级调度中心
- 城市级调度中心
- 园区级调度中心
各层从下向上汇聚不同粒度的信息,再从上向下发布最优任务调度方案。作者特别强调,这种分层设计可以降低顶层的计算负担,同时提升系统鲁棒性。
基于任务时延敏感性(TDS)的需求响应模型
论文将任务的总时延建模为迁移时延、等待处理时延、排队时延,并要求总时延不超过任务可接受上限。作者据此把任务划分为不同的时延敏感类别,并对迁移范围加以限制。
调度自治机制(district autonomy)
为了解决调度中心故障问题,论文设计了分层自治机制:
- 顶层失效时,区域层可以自治;
- 区域层失效时,城市层可以自治;
- 城市层失效时,园区层可以自治。
这使得系统在部分调度中心故障时仍能继续运行并维持较好的经济性。
论文方法
四层调度架构
论文将传统两层集中式调度,与所提出的四层分布式联合调度进行了对比。四层架构中,各层掌握的信息不同:
- 园区层:掌握园区级可再生能源发电信息
- 城市层:掌握城市级电价信息
- 区域层:掌握区域级需求响应补偿激励
- 顶层:综合全局信息形成全局最优调度方案
整体过程是:
- 用户任务先到达园区级 DC;
- 园区级向城市级上传任务与本地绿电信息;
- 城市级向区域级上传任务、园区绿电、城市电价;
- 区域级向顶层上传任务、绿电、电价、DR 补偿信息;
- 各级调度中心按可用信息做相应层级的最优调度。
任务时延敏感性建模(TDS)
论文定义任务总时延为:
其中:
:迁移时延 :等待执行时延 :排队时延
迁移时延与迁移距离正相关,排队时延与服务器数量、服务率、任务到达率有关。也就是说,任务越远距离迁移,越容易违反其时延约束。
任务分类与迁移层级
这是论文最关键的设计之一。根据 TDS,任务被划分为三类:
| 任务类型 | 时延敏感性 | 可迁移层级数 | 对应调度中心 |
|---|---|---|---|
| Cold task | 低 | 4 | 顶层调度中心 |
| Warm task | 中 | 3 | 区域级调度中心 |
| Hot task | 高 | 2 | 城市级调度中心 |
也就是说:
- Cold task:可跨区域迁移
- Warm task:可在同一区域内跨城市迁移
- Hot task:只能在同一城市内跨园区迁移
这实际上把“任务业务属性”直接映射到了“调度层级”和“迁移边界”上。
TDS 约束下的迁移成本矩阵
为了进一步保证时延要求并减少不必要的远距离迁移,论文设计了基于 TDS 的单位迁移成本矩阵。
核心思路是:
- 对于 hot task,若迁移到不同城市或不同区域,则把迁移成本设成一个很大的数,相当于禁止;
- 对于 warm task,若跨区域迁移,则设大数惩罚;
- 对于 cold task,迁移自由度最大。
这样做的作用是:
- 保证不同任务类型遵守其时延敏感性要求;
- 减轻远距离数据传输压力;
- 让优化器自动学会“合理迁移,而不是无约束迁移”。
优化目标
DCO 的总成本由四部分组成:
- 电力购电成本
- 任务迁移成本
- 可再生能源弃电成本
- 需求响应补偿收益
优化目标是最小化总成本。其中 DR 补偿收益是收益项,因此在总成本中相当于负项。论文还针对不同故障状态分别构造了目标函数,并通过调度中心状态变量统一描述。
调度自治机制
这是论文区别于一般调度优化工作的突出点。
- 正常工况:四层全部正常,任务可按各自类型在允许层级范围内调度;
- 顶层故障:无法进行跨区域最优调度,只能由区域层进行区域自治;
- 区域层故障:区域内各城市调度中心独立工作;
- 城市层故障:城市内各园区调度中心独立工作。
这意味着该系统不是单纯追求“正常工况最优”,而是追求“故障条件下也尽量可运行、可优化”。
实验设计
论文设置了 7 个对比场景:
- Case 1:无 DR,四层调度,全部正常
- Case 2:有 DR,四层调度,全部正常
- Case 3:有 DR,四层调度,顶层调度中心故障
- Case 4:有 DR,四层调度,某区域调度中心故障
- Case 5:有 DR,四层调度,某城市调度中心故障
- Case 6:有 DR,四层调度,某园区调度中心故障
- Case 7:有 DR,传统两层调度,全部正常
这组实验设计非常完整,既比较:
- 是否参与 DR,
- 四层 vs 两层,
- 正常工况 vs 故障工况。
主要实验结果
四层调度 + DR 显著降低总成本
相较于 Case 1(无 DR),Case 2(有 DR + 四层调度) 的总成本下降 32.25%。这说明数据中心通过时空迁移参与需求响应,确实能够显著改善经济性。
故障情况下仍能维持较大成本优势
相较于 Case 1,各故障工况下成本也显著下降:
- Case 3:下降 32.19%
- Case 4:下降 28.80%
- Case 5:下降 30.72%
- Case 6:下降 28.80%
这说明自治机制确实有效,系统在上层失效时并不会完全瘫痪。
四层优于传统两层
相较于 Case 1,Case 7(有 DR + 两层调度) 的总成本下降 28.17%,说明仅靠 DR 也有效; 但 Case 7 比 Case 2 的总成本高 1.55 Mil CNY,原因在于两层架构需要把所有信息和任务向顶层汇聚,迁移成本明显上升,从而削弱整体收益。
同时论文明确指出,所提模型有助于提升可再生能源消纳水平,并从园区负荷分配结果与成本结构变化中验证了这一点。
论文局限
论文最后也明确提到一些不足:
依赖预测精度
该工作依赖于较高精度的可再生能源发电预测和任务接收预测,如果预测误差较大,模型效果可能受到影响。
未充分处理更复杂不确定性
作者指出,未来将考虑:
- 可再生能源出力不确定性
- 任务服务请求不确定性
- 更复杂的灾备场景。
仍是优化建模框架,不是在线学习框架
它更接近“层级优化调度”,而不是我们当前更关心的“电力指令驱动 + 在线学习/强化学习 + 快速装置执行”的框架。这意味着它更适合做参考建模基线,不适合作为最终算法路线终点。
对当前研究的启发
启发一:先做任务分层,再做响应调度
这篇论文最值得借鉴的是不要直接把所有计算任务扔进统一调度器里优化,而要先做可调节性分层
- 不可调任务
- 时间可平移任务
- 空间可迁移任务
- 资源可弹性伸缩任务
这样“电力指令→调度策略”映射会更清晰。
启发二:把 TDS 扩展成“任务响应能力画像”
论文只考虑了时延敏感性,但我们的研究可以进一步加入:
- 时延容忍度
- 迁移代价
- 数据依赖强度
- 中断恢复成本
- 网络带宽占用
- SLA 违约风险
- 功率响应系数
也就是从单维 TDS,扩展到多维 task response profile。
启发三:分层架构很适合我们的“装置—平台—执行”设计
现在做的是:
- 北向电力指令接入
- 中间辅助决策装置
- 南向云网/算力系统执行
这与论文的多层调度思想是相通的。虽然层级可以不完全照搬,但“分层协同 + 局部自治”这个原则很适合我们写入项目架构。
启发四:自治机制对样机很重要
我们的项目有明确装置性能指标,例如任务响应平均时延小于 50 ms。 在这种场景下,系统不仅要“最优”,还要“失效时能退化运行”。
这篇论文提醒我们的关键点是:
- 云端调度服务失效时,本地装置是否还能按规则运行?
- 全局状态不完整时,是否能切换为保守策略?
- 调度推理超时时,是否自动回退到快路径/规则路径?
启发五:目标函数需要从“成本最小化”改写为“指令跟踪型”
这篇论文的目标主要是:
- 电费
- 迁移成本
- 弃绿成本
- DR 补偿
而我们的研究更适合改为:
- 电力指令跟踪误差
- SLA 违约惩罚
- 迁移与网络开销
- 碳排/能耗成本
- 执行不可行惩罚
也就是从“运营商经济优化”转向“电力指令驱动下的多约束任务级响应优化”。
对我们研究的定位
我们的研究可以在它的基础上继续向前走,进一步研究:
- 电力指令到任务调度的直接等效映射
- 在线滚动调度与强化学习/扩散模型生成策略
- 装置侧毫秒级执行与快慢路径协同