卷积层

发布日期：2021-05-14 14:48:27 浏览次数：21 分类：精选文章

本文共 2161 字，大约阅读时间需要 7 分钟。

PyTorch中的卷积操作（Conv2d）详解

卷积操作（Conv2d）是PyTorch中用于图像处理和深度学习的核心操作之一。本文将从基础到应用，详细讲解Conv2d的工作原理及其在实际项目中的应用。

一、卷积操作（Conv2d）的定义

卷积操作是一种局部线性变换，用于提取图像中的特征信息。它通过在输入图像上滑动卷积核，计算卷积核与输入图像在每个位置的点积，从而生成输出图像。

Conv2d的参数

in_channels：输入通道数

out_channels：输出通道数

kernel_size：卷积核尺寸

stride：步长，默认为1

padding：填充个数，默认为0

dilation：空洞卷积大小，默认为1

groups：分组卷积设置，默认为1

bias：偏置，默认为true

padding_mode：填充模式，默认为'zeros'

代码示例

from torch import nn
# 定义一个卷积层
conv_layer = nn.Conv2d(in_channels=3, out_channels=2, kernel_size=5)

输入数据示例

# 读取RGB图像数据
rgb = torch.randn(1, 3, 6, 6)  # (batchsize, channel, width, height)

卷积操作结果

# 运行卷积层
x = conv_layer(rgb)
# 输出结果
print("卷积后特征图尺寸:", x.shape)

图片说明：显示了原始输入图像及其尺寸，和卷积后输出图像的尺寸。

二、使用真实图片数据进行卷积操作

在实际项目中，常使用PIL和torchvision库来读取和处理图片数据。

读取图片数据

from PIL import Image
from torchvision import transforms
# 读取并转换图片数据
img = Image.open("./cat7.png").convert("RGB")
img_transform = transforms.Compose([transforms.ToTensor()])
# 增加通道维度
img_tensor = img_transform(img).unsqueeze(dim=0)  #  shape：(batch_size, channels, height, width)
print(img_tensor)
print("图片 tensor 的尺寸:", img_tensor.shape)

卷积操作示例

conv_layer = nn.Conv2d(in_channels=3, out_channels=1, kernel_size=3)
img_conv = conv_layer(img_tensor)
print("卷积前特征图尺寸:", img_tensor.shape)
print("卷积后特征图尺寸:", img_conv.shape)

图片说明：显示了原始图片数据的尺寸，和卷积后输出的尺寸。

三、转置卷积（ConvTranspose2d）实现上采样

在卷积操作中，转置卷积（ConvTranspose2d）是一种逆操作，常用于图像上采样。

转置卷积的参数

in_channels：输入通道数

out_channels：输出通道数

kernel_size：卷积核尺寸

stride：步长，默认为1

padding：填充个数，默认为0

output_padding：输出填充个数，默认为0

groups：分组卷积设置，默认为1

bias：偏置，默认为true

dilation：空洞卷积大小，默认为1

padding_mode：填充模式，默认为'zeros'

代码示例

# 定义转置卷积层
convTranspose = nn.ConvTranspose2d(in_channels=3, out_channels=1, kernel_size=3)

上采样操作

y = convTranspose(rgb)
print("转置卷积后结果:", y)
print("转置卷积结果的尺寸:", y.shape)

图片说明：显示了转置卷积后结果的尺寸。

四、卷积操作的基础概念

1. 卷积运算

卷积运算通过将卷积核在输入图像上滑动，计算卷积核与输入信号在每个位置的点积，生成输出图像。

2. 卷积核

卷积核又称滤波器，是一种模式或特征，用于检测图像中的某些特征信息。

3. 卷积过程

卷积过程类似于用一个模板去“寻找”图像中的相似区域，与卷积核模式越相似，激活值越高，从而实现特征提取。

卷积核的可视化

通过卷积核可视化，可以发现卷积核学习到了图像中的边缘、纹理、色彩等细节模式。

五、卷积操作的尺寸维度

1. 一维卷积

在一维卷积中，卷积核沿一个维度滑动，进行点积运算。

2. 二维卷积

在二维卷积中，卷积核在二维空间内滑动，计算局部区域的点积。

3. 三维卷积

在三维卷积中，卷积核在三维空间内滑动，常用于音频或视频数据处理。

图片说明：展示了三维卷积的维度结构。

通过对卷积操作的深入理解，我们能够更好地利用PyTorch进行图像处理和深度学习任务。

上一篇：池化、线性、激活函数层

下一篇：优化器（二）

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

PyTorch中的卷积操作（Conv2d）详解

一、卷积操作（Conv2d）的定义

Conv2d的参数

代码示例

输入数据示例

卷积操作结果

二、使用真实图片数据进行卷积操作

读取图片数据

卷积操作示例

三、转置卷积（ConvTranspose2d）实现上采样

转置卷积的参数

代码示例

上采样操作

四、卷积操作的基础概念

1. 卷积运算

2. 卷积核

3. 卷积过程

卷积核的可视化

五、卷积操作的尺寸维度

1. 一维卷积

2. 二维卷积

3. 三维卷积

发表评论

最新留言

关于作者

推荐文章