Latent Diffusion：SAR-to-RGB翻译

John Doe2026-06-152026-06-15

Latent Diffusion：SAR-to-RGB翻译

对应文献：Aydin, K.; Hanna, J.; Borth, D. SAR-to-RGB Translation with Latent Diffusion for Earth Observation. arXiv, 2025.

1. 算法思路

该方法用扩散模型从Sentinel-1 SAR生成Sentinel-2 RGB，用于缺失光学补全、云遮挡场景和下游分类。输入为SAR $S$ ，目标为RGB光学 $O$ ，生成模型学习：

$p_\theta(O|S)$

公开摘要提到三种设置：标准条件扩散、类别条件扩散和Cold Diffusion。

2. 标准扩散前向过程

对真实RGB图像 $O=x_0$ ，逐步加噪：

$q(x_t|x_{t-1}) = \mathcal{N}(\sqrt{1-\beta_t}x_{t-1},\beta_t I)$

可直接写为：

$x_t= \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$

其中：

$\alpha_t=1-\beta_t,\quad \bar{\alpha}_t=\prod_{i=1}^{t}\alpha_i,\quad \epsilon\sim\mathcal{N}(0,I)$

3. 条件反向去噪

模型学习在SAR条件下预测噪声：

$\epsilon_\theta(x_t,t,S)$

训练损失为：

$\mathcal{L}_{diff} = \mathbb{E}_{x_0,t,\epsilon} \left[ \|\epsilon-\epsilon_\theta(x_t,t,S)\|_2^2 \right]$

如果加入类别条件 $c$ ，则：

$\epsilon_\theta=\epsilon_\theta(x_t,t,S,c)$

训练目标变为：

$\mathcal{L}_{cdiff} = \mathbb{E} \left[ \|\epsilon-\epsilon_\theta(x_t,t,S,c)\|_2^2 \right]$

类别条件为生成过程提供土地覆盖语义先验。

4. 潜空间扩散

若使用潜在扩散，先由编码器将RGB映射到潜空间：

$z_0=E(O)$

扩散在 $z$ 上进行：

$z_t= \sqrt{\bar{\alpha}_t}z_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$

生成后解码：

$\hat{O}=D(z_0^\*)$

潜空间扩散比像素空间扩散计算更轻。

5. Cold Diffusion形式

Cold Diffusion不一定使用高斯噪声，而使用确定性退化。摘要提到先将S2与S1混合，再去除SAR信号。可形式化为：

$x_t = a_t O + (1-a_t)T(S)$

其中 (T(S)) 将SAR映射到RGB维度或潜空间， $a_t$ 随时间从1逐渐变化到0。模型学习逆过程：

$\hat{x}_{t-1}=R_\theta(x_t,t,S)$

损失为：

$\mathcal{L}_{cold} = \mathbb{E} \|R_\theta(x_t,t,S)-x_{t-1}\|_1$

6. 评价逻辑

该类方法不应只看PSNR/SSIM/FID，还应评价下游任务：

$Acc_{down}=Eval(C(\hat{O}),y)$

如果生成影像视觉质量一般但提高土地覆盖分类，则说明其保留了任务相关语义。

文献截图

下图来自 Latent Diffusion SAR-to-RGB 论文第3页，展示SAR条件输入、潜空间扩散和RGB生成的整体模型流程。

Latent Diffusion SAR-to-RGB模型总览

下图来自论文第4页，展示训练、条件扩散或采样过程的步骤示意，可对应本文的前向加噪和反向去噪公式。

Latent Diffusion训练与采样流程

下图来自论文第6页，展示不同扩散设置生成RGB图像的视觉效果，用于说明类别条件和生成策略对结果的影响。

Latent Diffusion生成RGB效果

7. 局限

生成RGB可能产生不存在的纹理或颜色。SAR-to-RGB适合辅助解释和缺失模态补全，但在变化检测、定损、定标等高可信任务中必须标注“生成结果”，并结合不确定性估计。