He等与Herrmann-Schaub强化学习调度:MDP建模与奖励推导

He等与Herrmann-Schaub强化学习调度:MDP建模与奖励推导

文献与适用边界

对应文献包括:He等的“A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites”和Herrmann、Schaub的“Reinforcement Learning for the Agile Earth-Observing Satellite Scheduling Problem”。

这些研究将敏捷卫星调度建模为马尔可夫决策过程(MDP)。它们不直接研究光学/SAR同平台,但MDP很适合表达动态状态下的载荷选择、等待、下传和重规划。

MDP建模

MDP由五元组表示:

其中 是状态空间, 是动作空间, 是状态转移概率, 是奖励函数, 是折扣因子。

在敏捷卫星调度中,状态可包括:

其中 是当前时间, 是姿态, 是能量, 是存储, 是热状态, 是候选任务集合。

同平台光学/SAR动作集合可定义为:

奖励函数推导

基本奖励:

表示完成任务 获得收益。扩展到光学/SAR:

光学质量:

SAR质量:

若形成光学/SAR联合产品,额外奖励:

状态转移

执行观测动作后:

若动作不可行,例如窗口不可见、功率不足或热控超限,则动作被屏蔽:

算法流程

  1. 构建仿真环境,生成任务窗口和资源状态。
  2. 定义状态、动作和奖励。
  3. 用Q-learning、策略梯度或深度强化学习训练策略。
  4. 在线调度时,从有效动作集合中选择动作。
  5. 执行动作后更新状态,并重复决策。

同平台迁移重点

MDP的优势是能处理动态任务、云量变化和在线重规划。迁移到同平台光学/SAR时,必须加入动作屏蔽和硬约束校验,否则学习策略可能选择工程上不可执行的动作。更稳妥的结构是“强化学习推荐候选动作,规则/MILP模块验证约束”。

论文截图(算法流程、步骤与效果)

截图来自对应论文 PDF 页面,并已通过 PicGo 上传。用于快速定位原文中的算法流程、关键步骤或实验效果;若截图为相关替代文献,已在说明中标注。

截图 1:算法流程页:MDP中环境-智能体交互、状态/动作/奖励定义

来源:R03_A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites.pdf,PDF 第 4 页。

MDP中环境-智能体交互、状态/动作/奖励定义

截图 2:实验/效果页:强化学习训练奖励或对比结果

来源:R03_A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites.pdf,PDF 第 9 页。

强化学习训练奖励或对比结果