CleanDiffuser: An Easy-to-use Modularized Library for Diffusion Models in Decision Making
论文笔记 - 用于任务决策的模块化扩散模型库
CleanDiffuser 不是一个新的扩散强化学习算法,而是一个面向决策问题的模块化扩散模型研究框架。它把扩散决策算法抽象成扩散主干、网络结构和引导采样三个核心模块,并补充了 masking、环境接口和高效数据加载等决策特有机制。在统一框架下,作者复现并比较了 planner、policy 和 data synthesizer 三类扩散方法,在 37 个 RL/IL 环境中总结出一些重要规律,例如 planner 路线当前仍不够成熟、采样步数增加可能导致性能下降、SDE/ODE solver 对性能影响显著等。对我们的启发是,扩散模型做决策已经具有系统方法论,但在强约束、实时性要求高的算网调度场景下,更可行的方向可能是 diffusion policy 与约束引导的结合,而不是直接生成整段调度轨迹。