AryCra07's Blog

2026-03-16发表2026-03-17更新论文阅读27 分钟读完 (大约4059个字)

CleanDiffuser: An Easy-to-use Modularized Library for Diffusion Models in Decision Making

论文笔记 - 用于任务决策的模块化扩散模型库

CleanDiffuser 不是一个新的扩散强化学习算法，而是一个面向决策问题的模块化扩散模型研究框架。它把扩散决策算法抽象成扩散主干、网络结构和引导采样三个核心模块，并补充了 masking、环境接口和高效数据加载等决策特有机制。在统一框架下，作者复现并比较了 planner、policy 和 data synthesizer 三类扩散方法，在 37 个 RL/IL 环境中总结出一些重要规律，例如 planner 路线当前仍不够成熟、采样步数增加可能导致性能下降、SDE/ODE solver 对性能影响显著等。对我们的启发是，扩散模型做决策已经具有系统方法论，但在强约束、实时性要求高的算网调度场景下，更可行的方向可能是 diffusion policy 与约束引导的结合，而不是直接生成整段调度轨迹。

2026-03-14发表2026-03-17更新论文阅读29 分钟读完 (大约4298个字)

Diffusion-based Reinforcement Learning for Edge-enabled AI-Generated Content Services

论文笔记 - 基于扩散的边缘增强AIGC服务强化学习

这篇论文的核心目标，是在边缘 AIGC 服务场景下，为动态到达的用户任务选择合适的 AIGC Service Provider（ASP）。作者认为，传统 DRL 在复杂离散决策问题中容易受限于探索效率和策略表达能力，因此提出用扩散模型生成动作分布，并将其嵌入 SAC，形成 D2SAC。

分类

标签

最新文章