一种基于Segment Anything Model(SAM)改进的算法

概述

论文提出了SAM-Road,一种基于Segment Anything Model(SAM)改进的算法,用于从卫星图像中高效、高精度地提取大规模矢量化道路网络图。该方法在几何形状和拓扑结构的联合建模上实现了创新,无需复杂后处理,显著提升了速度与准确性。


网络结构分析

SAMRoad是项目核心模型,基于PyTorch Lightning框架构建。网络结构主要包含三个部分:1 SAM的ViT图像编码器提取特征;

2 自定义卷积解码器生成道路/交叉口掩膜;

3 拓扑网络TopoNet预测节点连接性。

训练时结合双线性采样和Transformer处理空间关系,配置文件控制不同版本的ViT模型和训练参数。

SAMRoad网络结构解析(适合初学者):

  1. 特征提取层 :

    • 采用SAM预训练的ViT模型(支持B/L/H三种规模)
    • 输入256/512/1024尺寸的遥感图像
    • 输出256维的特征图(保持1/16原图分辨率)
  2. 掩膜预测层 :

    • 4级转置卷积构成解码器(128→64→32→2通道)
    • 每层包含LayerNorm和GELU激活
    • 最终输出道路/交叉口二值掩膜
  3. 拓扑推理层 :

    • 双线性采样器提取关键点特征
    • Transformer架构处理节点间空间关系
    • 动态图注意力机制预测连接概率

▲ 核心特性:
• 配置文件控制模型尺寸(vit_b/vit_l/vit_h)
• 支持LoRA轻量级微调(冻结原SAM参数)
• 联合优化掩膜精度与拓扑连通性(双损失函数)
• 自适应特征采样(支持不同尺寸输入)

核心贡献

  1. 1.几何与拓扑的联合预测框架
    • 几何提取:基于SAM的图像编码器预测道路和交叉口的概率掩模,通过非极大值抑制(NMS)提取稀疏顶点。
    • 拓扑推理:设计轻量级Transformer图神经网络,基于顶点位置和图像特征建模边的连接概率。
    • 端到端设计:无需手工启发式后处理,直接输出矢量化图谱。
  2. 2.基于滑动窗口的大区域推理
    • 借鉴密集分割的滑动窗口策略,支持任意大区域的并行处理。
    • 全局顶点和边通过局部窗口预测结果融合,减少噪声并提高鲁棒性。
  3. 3.显著的性能优势
    • 精度:在CityScale和SpaceNet数据集上,TOPO和APLS指标与SOTA方法(如RNGDet++)相当,甚至优势明显。
    • 速度:推理速度提升40倍(CityScale)到10倍(SpaceNet),支持实时处理平方公里级区域。

方法细节

1. 图像编码器

  • 预训练SAM的微调:
    • 采用轻量级ViT-B主干,输入图像(H×W×3)分块处理为(H/16 × W/16 × D)特征图。
    • 通过窗口和全局自注意力交替优化特征提取,适应卫星图像特性。

2. 几何解码器

  • 任务形式化:密集语义分割预测道路和交叉口掩模。
  • 掩模生成:4层转置卷积恢复原分辨率,输出(H×W×2)概率图。
  • 顶点提取:双掩模(道路+交叉口)NMS确保关键节点保留,步骤包括阈值过滤、降序去重。

3. 拓扑解码器

  • 基于Transformer的GNN:
    • 输入顶点嵌入来自SAM特征图双线性插值,结合相对位置偏移量。
    • 多头自注意力层聚合局部子图信息,预测边存在的二分类概率。
  • 标签生成:真实图的细分顶点采样,加入高斯噪声模拟预测不确定性。

4. 滑动窗口推理

  • 几何融合:全局掩模由多窗口结果平均加权后NMS提取顶点。
  • 拓扑融合:遍历窗口缓存特征,全局边概率为多窗口预测均值。

实验结果

数据集与指标

  • 数据集:CityScale(20城市,图像2048²像素)和SpaceNet(全球多种城市,400²像素)。
  • 指标:
    • TOPO: 几何与拓扑精度(F1)。
    • APLS: 路径长度相似度,验证长程拓扑正确性。

主要结果

  • 精度:
    • CityScale(TOPO F1: 77.23 vs RNGDet++ 78.44)和SpaceNet(APLS:71.64 vs RNGDet++ 67.73)均达到最优或近似最优。
  • 速度:
    • CityScale推理时间:4.6分钟(vs RNGDet++ 231分钟)。
    • 滑动窗口步长增大可进一步加速,伴随精度微降。

消融实验

  • SAM预训练关键性: 替换为ImageNet预训练ViT导致指标崩坏(F1 ↓45.44)。
  • Transformer结构必要性:移除后APLS显著下降(68.37→59.39)。
  • 交叉口掩模必要性:未预测交点的模型出现连接冗余或断裂(F1 ↓5.29)。

局限与未来方向

  1. 1.局限性
    • 立交桥层间拓扑模糊性处理不足。
    • 当前使用最小SAM变体(ViT-B),未探索更大模型潜力。
  2. 2.未来工作
    • 结合高程数据(LiDAR)解决立交桥歧义。
    • 参数高效微调(如LoRA)适配更大SAM变体。
    • 集成多模态基模型(如DINOv2、PaLI)提升语义理解。

结论

SAM-Road通过巧妙结合SAM的语义分割能力和轻量图网络,证明了基础视觉模型在复杂图学习任务中的潜力。其高效的并行化设计为城市级路网实时更新提供了新思路,同时为遥感与图学习交叉研究提供了新范例。