Dual-fusion GAN：SAR图像语义分割中的光学辅助

John Doe2026-06-152026-06-15

对应文献：Li等，A Dual-fusion Semantic Segmentation Framework With GAN For SAR Images. arXiv, 2022.

1. 算法思路

该方法面向SAR语义分割。SAR影像 $S$ 语义可解释性较弱，光学影像 $O$ 具有更强视觉语义。论文公开摘要显示，其基本思路是先用GAN从SAR生成光学风格影像 $\hat{O}$ ，再将SAR和生成/真实光学特征融合用于分割。

整体流程可写为：

$\hat{O}=G(S)$ $\hat{Y}=H(S,\hat{O})$

其中 $G$ 是SAR-to-optical生成器， $H$ 是分割网络。

生成器 $G$ 将SAR映射到光学域，判别器 $D$ 判断输入是否为真实光学：

$\min_G\max_D \mathcal{L}_{GAN}(G,D)$

标准对抗损失可写为：

$\mathcal{L}_{GAN} = \mathbb{E}_{O}[\log D(O)] + \mathbb{E}_{S}[\log(1-D(G(S)))]$

若使用重建约束，可加入：

$\mathcal{L}_{rec} = \|G(S)-O\|_1$

总生成损失为：

$\mathcal{L}_{G} = \mathcal{L}_{GAN} +\lambda_{rec}\mathcal{L}_{rec}$

公开摘要未列出完整损失细节，以上是GAN类SAR-to-optical方法的标准形式化，不代表原文一定使用完全相同权重。

对SAR和生成光学分别提取特征：

$f_s=E_s(S),\quad f_o=E_o(\hat{O})$

最简单融合为拼接：

$f=[f_s;f_o]$

若加入注意力，可计算权重：

$a=\sigma(W[f_s;f_o])$

融合特征为：

$f_{fus}=a\odot f_s+(1-a)\odot f_o$

分割输出：

$\hat{Y}=Dec(f_{fus})$

语义分割常用交叉熵：

$\mathcal{L}_{seg} = -\sum_{p}\sum_{c} Y_{p,c}\log \hat{Y}_{p,c}$

若类别不平衡，可加入Dice损失：

$\mathcal{L}_{dice} = 1- \frac{2\sum_p \hat{Y}_{p,c}Y_{p,c}+\epsilon} \sum_p \hat{Y}_{p,c}+\sum_p Y_{p,c}+\epsilon}$

总训练目标可写为：

$\mathcal{L} = \mathcal{L}_{G} +\lambda_{seg}\mathcal{L}_{seg}$

如果生成器和分割器分阶段训练，则先优化 $\mathcal{L}<em>{G}$ ，再固定或微调 $G$ 优化 $\mathcal{L}</em>{seg}$ 。

该方法的关键在于把光学辅助分成两步：先生成光学风格表征，再融合到SAR分割。它缓解了SAR语义弱的问题，使分割网络能够利用更接近人类视觉的结构和纹理。

下图来自 Dual-fusion GAN 论文第2页，展示双融合语义分割框架，包括GAN生成光学表征以及后续语义分割网络。

Dual-fusion GAN 框架图

下图来自论文第4页，展示消融实验和分割效果对比，可用于观察生成光学辅助、注意力融合等模块对结果的影响。

Dual-fusion GAN 消融与效果图

生成光学可能产生幻觉，尤其在SAR与真实光学并非一一对应时。如果 $\hat{O}$ 中出现错误纹理，注意力模块可能放大错误信息。公开摘要没有完整列出数据划分、损失权重和消融细节，因此使用时应进一步查全文。