2026-03-14发表2026-03-17更新论文阅读29 分钟读完 (大约4298个字)

Diffusion-based Reinforcement Learning for Edge-enabled AI-Generated Content Services

论文笔记 - 基于扩散的边缘增强AIGC服务强化学习

这篇论文的核心目标，是在边缘 AIGC 服务场景下，为动态到达的用户任务选择合适的 AIGC Service Provider（ASP）。作者认为，传统 DRL 在复杂离散决策问题中容易受限于探索效率和策略表达能力，因此提出用扩散模型生成动作分布，并将其嵌入 SAC，形成 D2SAC。

基本信息

题目：Diffusion-based Reinforcement Learning for Edge-enabled AI-Generated Content Services

期刊：IEEE Transactions on Mobile Computing

年份：2024

作者：Hongyang Du, Zonghang Li, Dusit Niyato, Jiawen Kang, Zehui Xiong, Huawei Huang, Shiwen Mao

核心方法：AGOD + D2SAC

关键词：扩散模型、强化学习、SAC、离散动作决策、AIGC-as-a-Service、边缘调度

代码：AGOD

背景与问题

背景

随着 Metaverse、AIGC 和边缘智能的发展，生成式 AI 服务越来越需要以“服务化”的方式部署，而不是直接放在终端设备上。原因在于大模型训练和推理成本高、资源需求大、终端设备难以承载。因此，作者提出 AIGC-as-a-Service（AaaS） 架构：将 AIGC 模型部署在边缘服务器上，用户按需上传生成请求，由边缘侧完成推理并返回结果。

但当多个 ASP 同时存在时，不同 ASP 的模型能力、可用资源、服务质量和当前负载都不同，系统必须为每个到达任务动态选择合适的 ASP，这就形成了一个在线调度问题。

核心矛盾

这篇论文实际在解决一个典型的“资源受限的在线任务分配”问题，但与普通调度不同，它引入了 AIGC 服务质量这一更难建模的因素：

任务侧：用户请求动态到达，且所需资源可自定义；
服务侧：不同 ASP 的资源容量和模型能力不同；
目标侧：不仅要保证任务不把服务器压垮，还要尽量让用户获得更高的主观满意度；
挑战：用户效用难以精确解析建模，环境又是动态变化的。

因此，这不是简单的延迟最小化或负载均衡问题，而是一个带资源约束、在线到达、离散动作、人感知效用驱动的序贯决策问题。

论文的主要创新点

作者的贡献可以概括为三层。

提出 AaaS 边缘服务架构

论文将 AIGC 模型部署到无线边缘网络中，构建 AIGC-as-a-Service 体系，使用户能够通过任意终端访问生成服务。这部分更多是应用场景和系统架构层面的铺垫。

提出 AGOD：用扩散模型生成最优决策

作者提出 AI-Generated Optimal Decision（AGOD）。其核心思想不是“生成图像”，而是“生成动作概率分布”。也就是说，扩散模型不再用于内容生成，而用于决策生成。

将 AGOD 融入 SAC，形成 D2SAC

作者把 AGOD 嵌入 Soft Actor-Critic，构造出 Deep Diffusion Soft Actor-Critic（D2SAC）。与普通 SAC 相比，D2SAC 的 actor 不再是简单的 MLP，而是一个条件扩散生成器，从而增强策略表达能力，并提升在离散决策问题中的表现。

论文整体技术路线

根据论文结构，其研究逻辑可以概括为：

提出边缘 AIGC 服务架构 AaaS；
将 ASP 选择建模为资源受限的在线任务分配问题；
设计人感知效用函数，定义任务完成收益；
提出扩散模型驱动的决策生成器 AGOD；
将 AGOD 融入 SAC，构建 D2SAC；
在仿真环境中与多种启发式和 DRL 方法比较；
验证 D2SAC 在奖励、收敛速度和鲁棒性方面的优势。

从方法论上看，这篇论文最重要的不是 AIGC 场景本身，而是：

把扩散模型作为离散动作策略网络使用。

论文方法

问题建模

AIGC 服务选择问题

系统中有一组用户任务和一组可用 ASP。每个任务需要被分配给一个 ASP 处理。目标是最大化所有任务获得的总效用，同时满足 ASP 的资源限制。

作者把这一问题写成资源受限任务分配：

决策变量：任务分给哪个 ASP；
目标函数：最大化总用户效用；
约束条件：当前任务占用资源与 ASP 上已有任务资源之和不能超过 ASP 容量。

这说明该问题本质上是一个带容量约束的离散动作优化问题。

人感知效用函数

论文把用户效用写成：

其中：

：第个 ASP 处理第个任务的生成结果；
：对生成结果的人感知质量评估。

作者用 BRISQUE 这类无参考图像质量评价指标来近似用户主观体验。这个设计说明：

论文关注的不只是“任务完成没完成”；
还要关心“生成得好不好”；
因此奖励信号并不完全是传统系统指标，而带有内容质量属性。

MDP 建模

论文进一步把问题写成马尔可夫决策过程（MDP）：

状态：当前任务需求，以及各 ASP 的总资源与可用资源；
动作：把任务分配到哪个 ASP；
奖励：内容质量收益减去服务崩溃惩罚；
目标：学到长期累计奖励最大的分配策略。

其中一个关键设计是崩溃惩罚。如果资源分配超过 ASP 容量，就会导致服务器崩溃，不仅当前任务失败，还可能打断正在执行的任务，因此会产生较大的负奖励。这样一来，策略既要追求高质量，也要避免资源过载。

AGOD：扩散模型如何生成动作

基本思想

传统 RL 的 actor 通常是一个前馈网络，输入状态，直接输出动作概率或动作值。AGOD 不这么做。

它的做法是：

先从高斯噪声出发；
在状态条件下逐步去噪；
最终得到；
对做 softmax，得到动作概率分布。

所以 AGOD 不是“直接映射”，而是“逐步生成动作分布”。

前向扩散与反向去噪

论文沿用扩散模型的标准思路：

前向过程：不断向变量加高斯噪声；
反向过程：学习如何把噪声逐步还原成目标分布。

但这里有一个区别：

在图像扩散模型里，前向过程是围绕真实数据样本构造的；而在决策问题里，并不存在现成的“最优动作分布标签”。因此作者并没有按监督学习方式训练一个传统 diffusion model，而是借用扩散模型的结构，让它作为策略表达器，再通过 RL 信号来训练。

为什么扩散模型可能更适合复杂动作决策

作者的隐含论点是：

离散动作空间可能存在多峰、多模态最优解；
普通 actor 网络往往容易输出单峰、平均化策略；
扩散模型对复杂分布建模能力更强，因此更适合生成高质量动作分布。

从这个角度看，AGOD 的本质价值在于增强 actor 的分布建模能力。

D2SAC：扩散模型如何与 SAC 结合

整体结构

D2SAC 保留了 SAC 的基本 actor-critic 框架，但对 actor 做了替换：

critic：仍然负责评估状态-动作价值；
actor：由普通策略网络改为 AGOD 扩散生成器；
target network：仍用于稳定训练；
replay buffer：仍用于经验回放。

因此，D2SAC 不是完全重写一种 RL，而是：

在 SAC 框架中，把 actor 升级为 diffusion-based actor。

策略更新目标

作者使用的 actor 更新目标仍具有 SAC 风格：

可以直观理解为：

让高价值动作分配更高概率；
同时保留一定熵，避免过早塌缩。

与普通离散 SAC 的不同在于，这里的 (\pi_\theta(s)) 不是简单网络一次前向得到的，而是通过 AGOD 的多步反向扩散生成的。

与标准扩散训练的差异

标准 diffusion model 常用噪声预测 MSE 损失训练。但本文里并没有真实最优动作标签，因此作者没有采用标准监督式 diffusion training，而是直接用 RL 信号训练策略。

这意味着：

扩散模型在这里不是独立生成模型；
它是 RL 策略网络的一种更强表达形式；
学习信号来自环境奖励和 critic 评估，而不是“真实最优动作分布”。

这一点非常关键，也是这篇论文与图像扩散、Diffusion Q-Learning 等工作的区别所在。

实验设计与结果

实验设置

论文构建了一个 AaaS 仿真环境，用于模拟用户请求到达和 ASP 服务过程。核心设置包括：

20 个 ASP；
1000 个用户；
任务资源需求随机生成；
任务到达服从泊松过程；
用 Stable Diffusion / RePaint 一类 AIGC 模型生成图像结果；
以人感知质量指标评估生成效果；
总训练步数为 1000，环境交互量为 (10^6) 量级。

对比方法

作者选择了多类基线：

启发式基线

Random
Round Robin
Crash Avoid
Prophet

其中 Prophet 类似理想上界，因为它假设预先知道任务在不同 ASP 上的真实效用。

DRL 基线

DQN
DRQN
Prioritized-DQN
Rainbow
REINFORCE
PPO
SAC

这一组对比比较全面，覆盖了值函数方法、策略梯度方法和 actor-critic 方法。

结果分析

总体性能

论文报告，D2SAC 在训练奖励和测试奖励上都优于所有可实现的对比方法。其测试奖励高于 SAC、PPO、REINFORCE 和 DQN 等方法，说明扩散策略网络确实带来了性能提升。

收敛速度

D2SAC 达到 Crash Avoid 基线所需训练步数显著少于 SAC、DQN 和 PPO。这表明它不仅最终性能更高，而且能更快学到“先不把系统调崩”的基本策略。

学习过程解释

作者指出，D2SAC 的学习过程大致分两个阶段：

早期阶段：先学会避免崩溃和过载；
后期阶段：在保证可行性的基础上进一步提升用户效用。

这个学习轨迹很符合实际系统逻辑：先活下来，再做得更优。

鲁棒性

在不同任务到达率下，D2SAC 依然保持较好的表现，说明方法对环境变化具有一定鲁棒性。

论文优点

方法思路新

它把扩散模型从内容生成迁移到动作生成，在调度与决策问题中提供了一个很有启发性的方向。

面向离散动作问题

许多 diffusion-RL 工作偏连续控制，而这篇论文明确针对离散动作空间，这对调度问题尤其重要。

与 SAC 结合方式自然

作者没有完全抛弃成熟的 RL 框架，而是在 SAC 上做可控增强，整体结构清晰。

实验对比较充分

启发式、经典 DRL、改进方法三类基线都进行了对比，结果也比较完整。

论文局限性

场景包装较强，问题本质相对简单

虽然论文使用了 AIGC、Metaverse、6G 等叙事，但从优化本质上看，它仍然是一个离散的资源受限任务分配问题。场景新颖性高于系统复杂性。

人感知效用建模较粗

作者用 BRISQUE 一类指标近似人主观感知，这在图像质量领域可以接受，但与真正用户偏好之间仍有距离。

方法解释性仍有限

论文实验上证明 D2SAC 优于 SAC，但对“为什么扩散策略一定更适合这类问题”的理论解释还不够强，更多是经验性结论。

推理和训练开销更高

由于 actor 需要经过多步去噪采样，D2SAC 相比普通 SAC 带来额外计算成本。在高频实时调度场景下，这一点需要谨慎评估。

仍是单步 ASP 选择，不是复杂联合调度

它的动作本质上只是“当前任务选哪个 ASP”，而不是更复杂的任务拆分、迁移比例控制、功率调节、带宽分配等联合决策。因此对算网调度的直接迁移仍有限。

对当前研究/项目的启发

如果把这篇论文放到当前的“电力指令驱动的计算负荷响应 / 算网调度”场景下，它至少有五点启发。

可以借用“扩散模型做策略生成器”的思想

这篇论文最有价值的地方，不是它的 AIGC 场景，而是它证明了：

扩散模型可以不只生成内容，也可以生成调度决策。

对于算网调度，这意味着动作不必由普通 MLP actor 直接输出，而可以由生成式策略网络逐步构造。

适合处理多峰、多候选的调度空间

目前场景里往往不只有一个“绝对最优动作”，而是存在多个可行调度方案，例如：

迁部分任务还是整体迁移；
调度到哪个节点；
何时执行；
削减多少训练负荷；
怎样平衡 SLA 与电力指令。

这类问题天然具有多模态特征，扩散策略可能比单点输出 actor 更有优势。

可作为“扩散 + RL”方向的入门桥梁论文

如果后续要探索 diffusion policy、conditional diffusion planner、Diffusion Actor-Critic 或 CleanDiffuser 等工作，这篇 D2SAC 是一个较容易理解的起点。

不能直接照搬到我们的场景

我们的问题比本文复杂得多，通常包含：

混合动作空间；
电力、网络、算力多类约束；
多时间尺度；
多目标优化；
任务级/容器级迁移代价。

而 D2SAC 只解决单一离散选择问题。因此更适合作为“方法启发”，而不是直接复现后原样套用。

可作为后续算法设计的对照基线

如果未来要做“扩散模型强化学习的电力指令计算负荷响应算法”，那么 D2SAC 可以作为一个重要参考基线：

若动作离散，可参考其 diffusion actor 设计；
若动作更复杂，可进一步扩展为条件扩散生成候选方案、再由 critic 进行打分；
若需要约束满足，可考虑把电力约束通过 reward、投影层或 feasibility filter 融入生成过程。

我的评价

这篇论文属于方法上有启发、场景上有包装、理论上中等、工程上可讨论的一类工作。

它最值得吸收的是：

当调度动作空间复杂且存在多模态可行解时，可以考虑用扩散模型替代传统 actor，作为生成式策略网络。

我们的目标是为“基于扩散模型强化学习的电力指令计算负荷响应算法”寻找方法源头，这篇论文是一个合适的阅读入口，但它更适合作为思路桥接论文，而不是最终可直接套用的算法模板。

#算网调度强化学习扩散模型 AIGC