He等与Herrmann-Schaub强化学习调度：MDP建模与奖励推导

John Doe2026-06-152026-06-15

He等与Herrmann-Schaub强化学习调度：MDP建模与奖励推导

文献与适用边界

对应文献包括：He等的“A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites”和Herrmann、Schaub的“Reinforcement Learning for the Agile Earth-Observing Satellite Scheduling Problem”。

这些研究将敏捷卫星调度建模为马尔可夫决策过程（MDP）。它们不直接研究光学/SAR同平台，但MDP很适合表达动态状态下的载荷选择、等待、下传和重规划。

MDP建模

MDP由五元组表示：

$\mathcal{M}=(\mathcal{S},\mathcal{A},P,R,\gamma)$

其中 $\mathcal{S}$ 是状态空间， $\mathcal{A}$ 是动作空间， $P$ 是状态转移概率， $R$ 是奖励函数， $\gamma$ 是折扣因子。

在敏捷卫星调度中，状态可包括：

$s_t=(t,att_t,E_t,S_t,H_t,I_t)$

其中 $t$ 是当前时间， $att_t$ 是姿态， $E_t$ 是能量， $S_t$ 是存储， $H_t$ 是热状态， $I_t$ 是候选任务集合。

同平台光学/SAR动作集合可定义为：

$\mathcal{A}=\{observe(i,OPT), observe(i,SAR), downlink, wait, maneuver\}$

奖励函数推导

基本奖励：

$R_t=p_i$

表示完成任务 $i$ 获得收益。扩展到光学/SAR：

$R_t=p_i q_{im}(s_t)-\lambda_E e_{im}-\lambda_D v_{im}-\lambda_H h_{im}-\lambda_M \tau_{att}$

光学质量：

$q_{i,OPT}=(1-\hat{C}_i)q_{sun}(h_i)q_{view}(\alpha_i)$

SAR质量：

$q_{i,SAR}=q_{\theta}(\theta_i)q_{mode}(k_i)q_{snr}(SNR_i)$

若形成光学/SAR联合产品，额外奖励：

$R_t^{pair}=p_i^{pair}\exp(-|\Delta t_i|/\tau_i)q_{overlap}q_{reg}$

状态转移

执行观测动作后：

$t_{t+1}=t_t+d_{im}+\tau_{att}$ $E_{t+1}=E_t-e_{im}$ $S_{t+1}=S_t+v_{im}$ $H_{t+1}=\alpha H_t+h_{im}$

若动作不可行，例如窗口不可见、功率不足或热控超限，则动作被屏蔽：

$\mathcal{A}_{valid}(s_t)=\{a\in\mathcal{A}: g_j(s_t,a)\le 0,\forall j\}$

算法流程

构建仿真环境，生成任务窗口和资源状态。
定义状态、动作和奖励。
用Q-learning、策略梯度或深度强化学习训练策略。
在线调度时，从有效动作集合中选择动作。
执行动作后更新状态，并重复决策。

同平台迁移重点

MDP的优势是能处理动态任务、云量变化和在线重规划。迁移到同平台光学/SAR时，必须加入动作屏蔽和硬约束校验，否则学习策略可能选择工程上不可执行的动作。更稳妥的结构是“强化学习推荐候选动作，规则/MILP模块验证约束”。

论文截图（算法流程、步骤与效果）

截图来自对应论文 PDF 页面，并已通过 PicGo 上传。用于快速定位原文中的算法流程、关键步骤或实验效果；若截图为相关替代文献，已在说明中标注。

截图 1：算法流程页：MDP中环境-智能体交互、状态/动作/奖励定义

来源：R03_A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites.pdf，PDF 第 4 页。

MDP中环境-智能体交互、状态/动作/奖励定义

截图 2：实验/效果页：强化学习训练奖励或对比结果

来源：R03_A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites.pdf，PDF 第 9 页。

强化学习训练奖励或对比结果