什么是遥感影像样本库?

什么是遥感影像样本库?
ytkz大家好,我是小白。很久没写公众号了。
今天聊一聊什么是遥感影像样本库及制作流程。
开门见山地说,深度学习需要的样本,我的理解是:指导计算机去识别、理解输入内容。。
主语是计算机,动词是 识别, 对象是 输入内容。
样本一般形式是 两两为一对 出现。
一、样本的基本组成
Image(原始影像)
就是我们的输入素材,遥感里一般是卫星 / 航拍 / 无人机拍摄的影像,格式多为 TIFF/GeoTIFF(带地理坐标),也可转 JPG/PNG。 我一般是滑窗分割为小瓦片转为png,大小一般是512x512。
Label(标注 / 标准答案)
是给计算机看的「正确答案」,文件格式主要分两类:
- 图片格式(掩码图)
- 文本格式(坐标 + 类别)
在语义分割,样本一般是图片+图片的形式。
在目标识别,样本一般是图片+文本的形式。
在语义分割也分为二分类和多分类。
二、不同任务的样本配对(遥感最常用)
语义分割(像素级分类,如土地利用分类、水体提取)
形式:影像图 + 标注图(图片格式)
每个像素都对应一个类别,逐像素匹配。
目标检测(找位置 + 类别,如找建筑、车辆、桥梁、光伏板)
形式:影像图 + 文本标注
文本里记录:目标类别 + 框坐标,告诉计算机 ”哪里有什么“。
三、什么是遥感影像样本库
简单说:
遥感影像样本库 = 大量标准化、配对好、带地理信息、分类统一的「影像 + 标注」集合。
它是训练遥感深度学习模型的「教材库」,样本质量、数量、规范性,直接决定模型能不能准确识别地物。
二分类如下图,左图是image,右图是label。label中,红色像素的数值是1(或者255)。黑色像素是0。
其实就是告诉计算机,图片中的哪些位置是1,哪些位置是0。
深度学习就是去计算图片中位置的概率,在训练时,需要的多张样本,这些样本我们称之为样本库。
多分类:
不分类,只识别,是目标检测,这时候的样本形式为图片+文本。
文本是描述 目标框的位置。目标框也分为不旋转的框和旋转的框。
如果从数据来源来分,也分为:雷达样本和光学样本。
四、遥感影像样本库完整制作流程
明确任务与类别规范
先定:做分割还是检测?分哪些类别(建筑、道路、农田、水体等)?
原始遥感影像收集与预处理
采集卫星 / 航飞影像,做校正、去云、去噪、镶嵌,再切成模型能接受的小瓦片(如 512×512)。
样本标注(核心步骤)
用标注工具,按任务画掩码(分割)或画框(检测),保证影像与标注严格对齐,遥感还要保留地理坐标。
格式标准化与数据集划分
把标注转成模型支持的格式(掩码图、YOLO TXT、COCO JSON 等),统一命名、统一尺寸,再按比例分成:训练集 / 验证集 / 测试集。
样本质检与清洗
检查漏标、错标、类别混淆、无效切片,删掉坏样本、修正错误,保证类别分布尽量均衡。
归档入库与管理
按任务、类别、数据源结构化存储,建立索引,方便后续训练、迭代、复用。
一句话总结:
样本就是「影像 + 标准答案」,样本库就是一套标准化教材,流程就是:定规范→预处理→标注→转格式→质检→入库。
以上步骤中最繁琐的步骤是样本标注,一般是在arcgis绘制矢量。
随着技术的发展,我也看到了有一些半自动绘制矢量的工具,但如果要高精度、高标准的样本,还是得靠人工。
问题来了:我们是否可以用大量的中等精度的样本去代替高精度、高标准的样本,最终达到模型的拟合呢?
亦或者只要少量的高精度、高标准的样本,结合自监督学习dinov3,完成微调,最终达到模型的拟合?
今天就写到这了。准备放假回家,你们是啥时候放假?











