DeepLearning.ai学习笔记（四）卷积神经网络 -- week3 目标检测

一、目标定位

这一小节视频主要介绍了我们在实现目标定位时标签该如何定义。

上图左下角给出了损失函数的计算公式(这里使用的是平方差)

如图示，加入我们需要定位出图像中是否有pedestrian，car，motorcycles。注意在这里我们假设图像中只肯呢个存在这三者中的一种或者都不存在，所以共有四种可能。

\(P_c=1\)表示有三者中的一种
- \(C_1=1\)表示有pedestrian，反之没有
- \(C_2=1\)表示有car
- \(C_3=1\)表示有motorcycles
\(b_*\)用于标识所识别食物的位置
- \(b_x,b_y\)：表示识别物体的中心坐标
- \(b_w,b_h\)：表示识别物体的宽和高

注意：\(P_c=0\)表示三者都没有，所以此时\(C_*,b_*\)的值我们并不在乎了。

二、特征点检测

这一节的内容和上一节感觉很类似，所有就没有记得很详细了

三、目标检测

目标检测常使用的是滑动窗口技术检测，即使用一定大小的窗口按照指定的步长对图像进行遍历

→

因为图像中车辆的大小我们是不知道的，所以可以更改窗口大小，从而识别并定位出车辆的位置。

四、卷积的滑动窗口实现

注意：该节视频的例子和上一节一样，都是识别图像中是否有pedestrian，car，motorcycles，background，所以最后输出y是4个节点

1.全连接层→卷积层

在介绍卷积滑动窗口之前我们首先要知道如何把神经网络的全连接层转化成卷积层，下面是使用了全连接层的网络结构

那么如何将全连接层转化成卷积层呢？如下图示

我们可以看到经过Max Pooling之后的数据大小是(5, 5, 16),第一个FC层是400个节点。我们可以使用400个5*5的过滤器进行卷积运算，随后我们就得到了(1, 1, 400)的矩阵。

第二个FC层也是400个节点，由之前的1*1过滤器的特点，我们可以使用400个1*1的过滤器，也可以得到(1,1,400)的矩阵。至此，我们已经成功将全连接层转化成了卷积层。

2.卷积滑动窗口实现

目标检测一节中介绍了滑动窗口。要实现窗口遍历，那么就需要很大的计算量，看起来似乎可操作性不强。But！这怎么可能难倒哪些newB的大神们呢，他们自然有办法。

首先我们先看下图，这个就是上面提到的将全连接层转化成卷积层的示意图，只不过画的看起来更正规一些了2333，但是有个需要提醒的是吴大大为了方便只花了平面图，就没有画出3D的效果了。

下面，假设我们的测试图大小是16*16，并令滑动窗口大小是14*14的(为了方便理解，下图用蓝色清楚地表明了14*14窗口的大小),步长是2，所以这个测试图可以被窗口划分成4个部分。随后和上面执行一样的操作，最后可以得到(2,2,4)的矩阵，此时我们不难看出测试图被滑动窗口选取的左上角部分对应的结果也是输出矩阵的左上角部分，其他3个部分同理。

所以这说明了什么？

说明我们没有必要用滑动窗口截取一部分，然后带入卷积网络运算。相反我们可以整体进行运算，这样速度就快很多了。

下图很清楚的展示了卷积滑动窗口的实现。我们可以看到图片被划分成了64块

五、Bounding Box预测

上面介绍的滑动窗口方法存在一个问题就是很多情况下滑动窗口并不能很好的切割出车体，如下图示：

为了解决这个问题，就有了YOLO(you only look once)算法，即只需要计算一次便可确定需要识别物体的位置的大小。

原理如下：

首先将图像划分成3*3(即9份)，每一份最后由一个向量表示，这个向量在本文最前面介绍过，即\(y=[P_c,b_x,b_y,b_h,b_w,c_1,c_2,c_3]\)

因为有9份，所以最后输出矩阵大小是(3,3,8),如下图示：

那么如何构建卷积网络呢？

输入矩阵是(100,100,3),然后是Conv，Maxpool层，……，最后只要确保输出矩阵大小是(3,3,8)即可。

下图是以右边的车辆作为示例介绍该车辆所在框的输出矩阵

很显然\(P_c=1\),
然后\(b_x,b_y\)的值是右边车辆的中心点相对于该框的位置,所以它们的值是一定小于1的，我们可以很容易的得到近似值\(b_x=0.4,b_y=0.3\)。
\(b_h,b_w\)的值同理也是车辆的宽高相对于其所在框的比例，但是要注意的是这两个值是可以大于1的，因为有可能部分车身在框外。但是也可以使用sigmoid函数将值控制在1以内。