预处理之归一化和标准化

ytkz2024-01-262024-01-31

公式

归一化和标准化是两个不同的数据预处理技术。

归一化是将数据缩放到特定的范围，通常是将数据映射到0和1之间。这可以通过以下公式实现：

$x_{normalized}= \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)}$

标准化是将数据转换为具有零均值和单位方差的分布。这可以通过以下公式实现：

$x_{standardized}=\frac{x - \text{mean}(x)}{\text{std}(x)}$

其中，x 是原始数据，mean(x) 是数据的平均值，std(x) 是数据的标准差。

对于遥感影像处理，归一化和标准化可以用于将像素值映射到特定的范围或调整像素值的分布。

例子

一维数据：

当涉及到归一化和标准化数据时，Python的NumPy库提供了方便的函数和方法。以下是使用NumPy库进行归一化和标准化的示例代码：

import numpy as np

# 原始数据
data = np.array([2, 5, 10, 8, 12])

# 归一化
normalized_data = (data - np.min(data)) / (np.max(data) - np.min(data))
print("Normalized data:", normalized_data)

# 标准化
standardized_data = (data - np.mean(data)) / np.std(data)
print("Standardized data:", standardized_data)

输出：

Normalized data: [0.  0.25 0.625 0.375 1.]
Standardized data: [-1.26491106 -0.63245553  0.63245553  0.12649111  1.13841195]

在这个示例中，我们首先定义了一个包含一些原始数据的NumPy数组。然后，我们使用NumPy的np.min和np.max函数计算数据的最小值和最大值。通过将最小值减去数据并将其除以最大值和最小值之间的差异，我们实现了归一化。使用NumPy的np.mean和np.std函数，我们计算了数据的平均值和标准差。通过将数据减去平均值并除以标准差，我们实现了标准化。

二维数据（图像）

对于二维数据，例如图像数据，归一化和标准化的过程与一维数据类似，只是要对每个维度（通道）进行操作。以下是使用NumPy库对二维图像数据进行归一化和标准化的示例代码：

import numpy as np

# 原始图像数据
image = np.array([[50, 100, 150],
                  [75, 125, 175],
                  [25, 75, 125]])

# 归一化
normalized_image = (image - np.min(image)) / (np.max(image) - np.min(image))
print("Normalized image:")
print(normalized_image)

# 标准化
mean = np.mean(image)
std = np.std(image)
standardized_image = (image - mean) / std
print("Standardized image:")
print(standardized_image)

输出：

Normalized image:
[[0.         0.5        1.        ]
 [0.25       0.625      0.875     ]
 [0.08333333 0.41666667 0.70833333]]
Standardized image:
[[-1.22474487 -0.40824829  0.40824829]
 [-0.81649658 -0.20412415  0.20412415]
 [-1.63299316 -0.81649658 -0.20412415]]

在这个示例中，我们定义了一个3x3的二维图像数据（灰度图像），其中每个元素表示像素值。我们使用相同的归一化和标准化公式，但是对每个像素进行操作。归一化后的图像数据将像素值映射到0和1之间，而标准化后的图像数据具有零均值和单位方差。

请注意，如果图像具有多个通道（例如RGB图像），则需要对每个通道分别进行归一化和标准化。这意味着需要对每个通道的像素值进行相应的计算。

遥感图像中的归一化

遥感图像的像素值通常存储为16-bit（即每个像素值的范围为0到65535）。然而，有时我们可能需要将这些图片转换为8-bit（即每个像素值的范围为0到255），例如为了显示图片或者与某些只能处理8-bit数据的算法兼容。

以下是一个使用Python和GDAL库将16-bit遥感图像归一化为8-bit的示例：

import numpy as np
from osgeo import gdal

# 读取遥感图像
dataset = gdal.Open('your_image_file.tif')
band = dataset.GetRasterBand(1)
image = band.ReadAsArray()

# 将16-bit图像归一化为0-1范围
min_val = np.min(image)
max_val = np.max(image)
normalized_image = (image - min_val) / (max_val - min_val)

# 将归一化的图像转换为8-bit
eight_bit_image = (normalized_image * 255).astype(np.uint8)