CleanDiffuser: An Easy-to-use Modularized Library for Diffusion Models in Decision Making

论文笔记 - 用于任务决策的模块化扩散模型库

CleanDiffuser 不是一个新的扩散强化学习算法,而是一个面向决策问题的模块化扩散模型研究框架。它把扩散决策算法抽象成扩散主干、网络结构和引导采样三个核心模块,并补充了 masking、环境接口和高效数据加载等决策特有机制。在统一框架下,作者复现并比较了 planner、policy 和 data synthesizer 三类扩散方法,在 37 个 RL/IL 环境中总结出一些重要规律,例如 planner 路线当前仍不够成熟、采样步数增加可能导致性能下降、SDE/ODE solver 对性能影响显著等。对我们的启发是,扩散模型做决策已经具有系统方法论,但在强约束、实时性要求高的算网调度场景下,更可行的方向可能是 diffusion policy 与约束引导的结合,而不是直接生成整段调度轨迹

阅读更多

Diffusion-based Reinforcement Learning for Edge-enabled AI-Generated Content Services

论文笔记 - 基于扩散的边缘增强AIGC服务强化学习

这篇论文的核心目标,是在边缘 AIGC 服务场景下,为动态到达的用户任务选择合适的 AIGC Service Provider(ASP)。作者认为,传统 DRL 在复杂离散决策问题中容易受限于探索效率和策略表达能力,因此提出用扩散模型生成动作分布,并将其嵌入 SAC,形成 D2SAC

阅读更多