一种基于Segment Anything Model（SAM）改进的算法

ytkz2025-03-042025-03-04

论文提出了SAM-Road，一种基于Segment Anything Model（SAM）改进的算法，用于从卫星图像中高效、高精度地提取大规模矢量化道路网络图。该方法在几何形状和拓扑结构的联合建模上实现了创新，无需复杂后处理，显著提升了速度与准确性。

网络结构分析

SAMRoad是项目核心模型，基于PyTorch Lightning框架构建。网络结构主要包含三个部分：1 SAM的ViT图像编码器提取特征；

2 自定义卷积解码器生成道路/交叉口掩膜；

3 拓扑网络TopoNet预测节点连接性。

训练时结合双线性采样和Transformer处理空间关系，配置文件控制不同版本的ViT模型和训练参数。

SAMRoad网络结构解析（适合初学者）：

特征提取层：
- 采用SAM预训练的ViT模型（支持B/L/H三种规模）
- 输入256/512/1024尺寸的遥感图像
- 输出256维的特征图（保持1/16原图分辨率）
掩膜预测层：
- 4级转置卷积构成解码器（128→64→32→2通道）
- 每层包含LayerNorm和GELU激活
- 最终输出道路/交叉口二值掩膜
拓扑推理层：
- 双线性采样器提取关键点特征
- Transformer架构处理节点间空间关系
- 动态图注意力机制预测连接概率

▲ 核心特性：
• 配置文件控制模型尺寸（vit_b/vit_l/vit_h）
• 支持LoRA轻量级微调（冻结原SAM参数）
• 联合优化掩膜精度与拓扑连通性（双损失函数）
• 自适应特征采样（支持不同尺寸输入）

1.几何与拓扑的联合预测框架
- 几何提取：基于SAM的图像编码器预测道路和交叉口的概率掩模，通过非极大值抑制（NMS）提取稀疏顶点。
- 拓扑推理：设计轻量级Transformer图神经网络，基于顶点位置和图像特征建模边的连接概率。
- 端到端设计：无需手工启发式后处理，直接输出矢量化图谱。
2.基于滑动窗口的大区域推理
- 借鉴密集分割的滑动窗口策略，支持任意大区域的并行处理。
- 全局顶点和边通过局部窗口预测结果融合，减少噪声并提高鲁棒性。
3.显著的性能优势
- 精度：在CityScale和SpaceNet数据集上，TOPO和APLS指标与SOTA方法（如RNGDet++）相当，甚至优势明显。
- 速度：推理速度提升40倍（CityScale）到10倍（SpaceNet），支持实时处理平方公里级区域。

预训练SAM的微调：
- 采用轻量级ViT-B主干，输入图像（H×W×3）分块处理为（H/16 × W/16 × D）特征图。
- 通过窗口和全局自注意力交替优化特征提取，适应卫星图像特性。

基于Transformer的GNN：
- 输入顶点嵌入来自SAM特征图双线性插值，结合相对位置偏移量。
- 多头自注意力层聚合局部子图信息，预测边存在的二分类概率。
标签生成：真实图的细分顶点采样，加入高斯噪声模拟预测不确定性。

精度：
- CityScale（TOPO F1: 77.23 vs RNGDet++ 78.44）和SpaceNet（APLS:71.64 vs RNGDet++ 67.73）均达到最优或近似最优。
速度：
- CityScale推理时间：4.6分钟（vs RNGDet++ 231分钟）。
- 滑动窗口步长增大可进一步加速，伴随精度微降。

1.局限性：
- 立交桥层间拓扑模糊性处理不足。
- 当前使用最小SAM变体（ViT-B），未探索更大模型潜力。
2.未来工作：
- 结合高程数据（LiDAR）解决立交桥歧义。
- 参数高效微调（如LoRA）适配更大SAM变体。
- 集成多模态基模型（如DINOv2、PaLI）提升语义理解。

SAM-Road通过巧妙结合SAM的语义分割能力和轻量图网络，证明了基础视觉模型在复杂图学习任务中的潜力。其高效的并行化设计为城市级路网实时更新提供了新思路，同时为遥感与图学习交叉研究提供了新范例。