He等与Herrmann-Schaub强化学习调度:MDP建模与奖励推导
He等与Herrmann-Schaub强化学习调度:MDP建模与奖励推导
John DoeHe等与Herrmann-Schaub强化学习调度:MDP建模与奖励推导
文献与适用边界
对应文献包括:He等的“A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites”和Herrmann、Schaub的“Reinforcement Learning for the Agile Earth-Observing Satellite Scheduling Problem”。
这些研究将敏捷卫星调度建模为马尔可夫决策过程(MDP)。它们不直接研究光学/SAR同平台,但MDP很适合表达动态状态下的载荷选择、等待、下传和重规划。
MDP建模
MDP由五元组表示:
其中 是状态空间, 是动作空间, 是状态转移概率, 是奖励函数, 是折扣因子。
在敏捷卫星调度中,状态可包括:
其中 是当前时间, 是姿态, 是能量, 是存储, 是热状态, 是候选任务集合。
同平台光学/SAR动作集合可定义为:
奖励函数推导
基本奖励:
表示完成任务 获得收益。扩展到光学/SAR:
光学质量:
SAR质量:
若形成光学/SAR联合产品,额外奖励:
状态转移
执行观测动作后:
若动作不可行,例如窗口不可见、功率不足或热控超限,则动作被屏蔽:
算法流程
- 构建仿真环境,生成任务窗口和资源状态。
- 定义状态、动作和奖励。
- 用Q-learning、策略梯度或深度强化学习训练策略。
- 在线调度时,从有效动作集合中选择动作。
- 执行动作后更新状态,并重复决策。
同平台迁移重点
MDP的优势是能处理动态任务、云量变化和在线重规划。迁移到同平台光学/SAR时,必须加入动作屏蔽和硬约束校验,否则学习策略可能选择工程上不可执行的动作。更稳妥的结构是“强化学习推荐候选动作,规则/MILP模块验证约束”。
论文截图(算法流程、步骤与效果)
截图来自对应论文 PDF 页面,并已通过 PicGo 上传。用于快速定位原文中的算法流程、关键步骤或实验效果;若截图为相关替代文献,已在说明中标注。
截图 1:算法流程页:MDP中环境-智能体交互、状态/动作/奖励定义
来源:R03_A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites.pdf,PDF 第 4 页。

截图 2:实验/效果页:强化学习训练奖励或对比结果
来源:R03_A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites.pdf,PDF 第 9 页。



