动手学pytorch-卷积神经网络基础

卷积神经网络基础

1.二维卷积层
2.填充和步幅
3.多输入通道和多输出通道
4.卷积层与全连接层的对比
5.池化

1.二维卷积层

二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在每个位置上,卷积核与该位置处的输入子数组按元素相乘并求和,得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子,阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。


图1 二维互相关运算

特征图与感受野

二维卷积层输出的二维数组可以看作是输入在空间维度(宽和高)上某一级的表征,也叫特征图(feature map)。影响元素\(x\)的前向计算的所有可能输入区域(可能大于输入的实际尺寸)叫做\(x\)的感受野(receptive field)。

以图1为例,输入中阴影部分的四个元素是输出中阴影部分元素的感受野。将图中形状为\(2 \times 2\)的输出记为\(Y\),将\(Y\)与另一个形状为\(2 \times 2\)的核数组做互相关运算,输出单个元素\(z\)。那么,\(z\)在\(Y\)上的感受野包括\(Y\)的全部四个元素,在输入上的感受野包括其中全部9个元素。可见,可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加广阔,从而捕捉输入上更大尺寸的特征。

2.填充和步幅

填充(padding)是指在输入高和宽的两侧填充元素(通常是0元素),图2里在原输入高和宽的两侧分别添加了值为0的元素。

图2 在输入的高和宽两侧分别填充了0元素的二维互相关计算

如果原输入的高和宽是\(n_h\)和\(n_w\),卷积核的高和宽是\(k_h\)和\(k_w\),在高的两侧一共填充\(p_h\)行,在宽的两侧一共填充\(p_w\)列,则输出形状为:

\[
(n_h+p_h-k_h+1)\times(n_w+p_w-k_w+1)
\]

在互相关运算中,卷积核在输入数组上滑动,每次滑动的行数与列数即是步幅(stride)。此前使用的步幅都是1,图3展示了在高上步幅为3、在宽上步幅为2的二维互相关运算。

图3 高和宽上步幅分别为3和2的二维互相关运算

一般来说,当高上步幅为\(s_h\),宽上步幅为\(s_w\)时,输出形状为:

$$

\lfloor(n_h+p_h-k_h+s_h)/s_h\rfloor \times \lfloor(n_w+p_w-k_w+s_w)/s_w\rfloor

$$

如果\(p_h=k_h-1\),\(p_w=k_w-1\),那么输出形状将简化为\(\lfloor(n_h+s_h-1)/s_h\rfloor \times \lfloor(n_w+s_w-1)/s_w\rfloor\)。更进一步,如果输入的高和宽能分别被高和宽上的步幅整除,那么输出形状将是\((n_h / s_h) \times (n_w/s_w)\)。

当\(p_h = p_w = p\)时,称填充为\(p\);当\(s_h = s_w = s\)时,称步幅为\(s\)。

在卷积神经网络中使用奇数高宽的核,比如\(3 \times 3\),\(5 \times 5\)的卷积核,对于高度(或宽度)为大小为\(2 k + 1\)的核,令步幅为1,在高(或宽)两侧选择大小为\(k\)的填充,便可保持输入与输出尺寸相同。

3.多输入通道和多输出通道

多输入通道

卷积层的输入可以包含多个通道,图4展示了一个含2个输入通道的二维互相关计算的例子。

图4 含2个输入通道的互相关计算

假设输入数据的通道数为\(c_i\),卷积核形状为\(k_h\times k_w\),为每个输入通道各分配一个形状为\(k_h\times k_w\)的核数组,将\(c_i\)个互相关运算的二维输出按通道相加,得到一个二维数组作为输出。把\(c_i\)个核数组在通道维上连结,即得到一个形状为\(c_i\times k_h\times k_w\)的卷积核。

多输出通道

卷积层的输出也可以包含多个通道,设卷积核输入通道数和输出通道数分别为\(c_i\)和\(c_o\),高和宽分别为\(k_h\)和\(k_w\)。如果希望得到含多个通道的输出,可以为每个输出通道分别创建形状为\(c_i\times k_h\times k_w\)的核数组,将它们在输出通道维上连结,卷积核的形状即\(c_o\times c_i\times k_h\times k_w\)。

对于输出通道的卷积核,提供这样一种理解,一个\(c_i \times k_h \times k_w\)的核数组可以提取某种局部特征,但是输入可能具有相当丰富的特征,需要有多个这样的\(c_i \times k_h \times k_w\)的核数组,不同的核数组提取的是不同的特征。

1x1卷积层

最后讨论形状为\(1 \times 1\)的卷积核,通常称这样的卷积运算为\(1 \times 1\)卷积,称包含这种卷积核的卷积层为\(1 \times 1\)卷积层。图5展示了使用输入通道数为3、输出通道数为2的\(1\times 1\)卷积核的互相关计算。

图5 1x1卷积核的互相关计算。输入和输出具有相同的高和宽

\(1 \times 1\)卷积核可在不改变高宽的情况下,调整通道数。\(1 \times 1\)卷积核不识别高和宽维度上相邻元素构成的模式,其主要计算发生在通道维上。假设将通道维当作特征维,将高和宽维度上的元素当成数据样本,那么\(1\times 1\)卷积层的作用与全连接层等价。

4.卷积层与全连接层的对比

二维卷积层经常用于处理图像,与此前的全连接层相比,它主要有两个优势:

一是全连接层把图像展平成一个向量,在输入图像上相邻的元素可能因为展平操作不再相邻,网络难以捕捉局部信息。而卷积层的设计,天然地具有提取局部信息的能力。

二是卷积层的参数量更少。不考虑偏置的情况下,一个形状为\((c_i, c_o, h, w)\)的卷积核的参数量是\(c_i \times c_o \times h \times w\),与输入图像的宽高无关。假如一个卷积层的输入和输出形状分别是\((c_1, h_1, w_1)\)和\((c_2, h_2, w_2)\),如果要用全连接层进行连接,参数数量就是\(c_1 \times c_2 \times h_1 \times w_1 \times h_2 \times w_2\)。使用卷积层可以以较少的参数数量来处理更大的图像。

5.池化

池化层主要用于缓解卷积层对位置的过度敏感性。同卷积层一样,池化层每次对输入数据的一个固定形状窗口(又称池化窗口)中的元素计算输出,池化层直接计算池化窗口内元素的最大值或者平均值,该运算也分别叫做最大池化或平均池化。图6展示了池化窗口形状为\(2\times 2\)的最大池化。

图6 池化窗口形状为 2 x 2 的最大池化

二维平均池化的工作原理与二维最大池化类似,但将最大运算符替换成平均运算符。池化窗口形状为\(p \times q\)的池化层称为\(p \times q\)池化层,其中的池化运算叫作\(p \times q\)池化。

池化层也可以在输入的高和宽两侧填充并调整窗口的移动步幅来改变输出形状。池化层填充和步幅与卷积层填充和步幅的工作机制一样。

在处理多通道输入数据时,池化层对每个输入通道分别池化,但不会像卷积层那样将各通道的结果按通道相加。这意味着池化层的输出通道数与输入通道数相等。

原文地址:https://www.cnblogs.com/54hys/p/12325944.html

时间: 2024-07-30 07:09:10

动手学pytorch-卷积神经网络基础的相关文章

动手学pytorch-循环神经网络基础

循环神经网络的构造 假设\(\boldsymbol{X}_t \in \mathbb{R}^{n \times d}\)是时间步\(t\)的小批量输入,\(\boldsymbol{H}_t \in \mathbb{R}^{n \times h}\)是该时间步的隐藏变量,则: \[ \boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \bo

计算机视觉概要和卷积神经网络基础概念

本文主要介绍了CV概要和CNN基础概念. 1 计算机视觉(computer vision)简介 计算机视觉旨在识别和理解图像/视频中的内容.其诞生于1966年MIT AI Group的"the summer vision project".当时,人工智能其他分支的研究已经有一些初步成果.由于人类可以很轻易地进行视觉认知,MIT的教授们希望通过一个暑期项目解决计算机视觉问题.当然,计算机视觉没有被一个暑期内解决,但计算机视觉经过50余年发展已成为一个十分活跃的研究领域.如今,互联网上超过

【原创 深度学习与TensorFlow 动手实践系列 - 3】第三课:卷积神经网络 - 基础篇

提纲: 1. 链式反向梯度传到 2. 卷积神经网络 - 卷积层 3. 卷积神经网络 - 功能层 4. 实例:卷积神经网络MNIST分类 期待目标: 1. 清楚神经网络优化原理,掌握反向传播计算. 2. 掌握卷积神经网络卷积层的结构特点,关键参数,层间的连接方式. 3. 了解不同卷积神经网络功能层的作用,会进行简单的卷积神经网络结构设计. 4. 能够运行TensorFlow卷积神经网络 MNIST.  f(x, y, z) = (x + y) * z (3.00 + 1.00) * -2.00 =

DeepLearning.ai学习笔记(四)卷积神经网络 -- week1 卷积神经网络基础知识介绍

一.计算机视觉 如图示,之前课程中介绍的都是64* 64 3的图像,而一旦图像质量增加,例如变成1000 1000 * 3的时候那么此时的神经网络的计算量会巨大,显然这不现实.所以需要引入其他的方法来解决这个问题. 二.边缘检测示例 边缘检测可以是垂直边缘检测,也可以是水平边缘检测,如上图所示. 至于算法如何实现,下面举一个比较直观的例子: 可以很明显的看出原来6 * 6的矩阵有明显的垂直边缘,通过3 * 3的过滤器(也叫做 "核")卷积之后,仍然保留了原来的垂直边缘特征,虽然这个边缘

动手学pytorch-循环神经网络进阶

循环神经网络进阶 1.GRU 2.LSTM 3.Deep RNN 4.Bidirection NN 1.GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ?控循环神经?络:捕捉时间序列中时间步距离较?的依赖关系 1.1数学表达式 \[ R_{t} = σ(X_tW_{xr} + H_{t?1}W_{hr} + b_r)\\ Z_{t} = σ(X_tW_{xz} + H_{t?1}W_{hz} + b_z)\\ \widetilde{H}_t = tanh(X_tW_{xh} +

【动手学pytorch】softmax回归

一.什么是softmax? 有一个数组S,其元素为Si ,那么vi 的softmax值,就是该元素的指数与所有元素指数和的比值.具体公式表示为: softmax回归本质上也是一种对数据的估计 二.交叉熵损失函数 在估计损失时,尤其是概率上的损失,交叉熵损失函数更加常用.下面是交叉熵 当我们预测单个物体(即每个样本只有1个标签),y(i)为我们构造的向量,其分量不是0就是1,并且只有一个1(第y(i)个数为1).于是.交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类结果正确.遇

动手学servlet(二) servlet基础

1.我们来试着向一个servlet提交一个表单,现在webcontent下新建一个login.html页面,其中action对应servelt类名,代码如下: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html> <head> <meta http-equiv="Content-Type" content="text/html;

动手实现CNN卷积神经网络

数据集采用的是手写数据集: 本文构建的CNN网络图如下: 像素点:28*28 = 784,55000张手写数字图片. 原文地址:https://www.cnblogs.com/tianqizhi/p/10831004.html

DataWhale 动手学深度学习PyTorch版-task3+4+5:文本预处理;语言模型;循环神经网络基础

课程引用自伯禹平台:https://www.boyuai.com/elites/course/cZu18YmweLv10OeV <动手学深度学习>官方网址:http://zh.gluon.ai/ ——面向中文读者的能运行.可讨论的深度学习教科书. 第二次打卡: Task03: 过拟合.欠拟合及其解决方案:梯度消失.梯度爆炸:循环神经网络进阶 Task04:机器翻译及相关技术:注意力机制与Seq2seq模型:Transformer Task05:卷积神经网络基础:leNet:卷积神经网络进阶 有