#ICCV2019论文阅读#Fully_convolutional_Features

一 知识背景

3D scan&cloud points(点云)patch-based features,fully convolutional network, deep metric learning, sparse tensors,sparse convolutions, hard negetive-mining, contrastive loss, triplet loss, batch normalization...

1.cloud points(点云)

  “在逆向工程中通过测量仪器得到的产品外观表面的点数据集合也称之为点云,通常使用三维坐标测量机所得到的点数量比较少,点与点的间距也比较大,叫稀疏点云;而使用三维激光扫描仪或照相式扫描仪得到的点云,点数量比较大并且比较密集,叫密集点云,

点云是在和目标表面特性的海量点集合。根据激光测量原理得到的点云,包括三维坐标(XYZ)和激光反射强度(Intensity)。根据摄影测量原理得到的点云,包括三维坐标(XYZ)和颜色信息(RGB)。

结合激光测量和摄影测量原理得到点云,包括三维坐标(XYZ)、激光反射强度(Intensity)和颜色信息(RGB)。在获取物体表面每个采样点的空间坐标后,得到的是一个点的集合,称之为“点云”(Point Cloud)。点云的格式:; *.pts; *.asc ; *.dat; *.stl ;*.imw;*.xyz;。”

-----from 百度百科。

2.patch-based features

即基于一块数据的特征。

3.fully convolutional networks

具体可参见Long[2014]年的论文FCN,还可参见这篇博客CSDN_Blog。简单的说,Long等人将传统CNN网络如AlexNet, VGGNet的后几个全连接层全部改装成卷积层,因为Long提到全连接层可以看作卷积核覆盖整个输入的卷积(”these fully connected layers can also be viewed as convolutions with kernels that cover their entire input regions."),这种转换非常有效的提升了计算效率,因为它不必重复的计算重叠的patch上的卷积。

4 deep metric learning(深度度量学习

如何有效的度量物体间的相似性?如果通过使用深度学习的方法去学习到这种度量的策略即是deep metric learning。现有的依赖对比(contrastive loss)和三元组损失(triplet loss),由于正负样本可组合的数量极多,因此人们多采用仅对训练有意义的正负样本采样,也被称为“难例挖掘”(hard negative mining)。可参考这篇综述。综述里包括了对hard negetive-mining, contrastive loss, triplet loss的解释说明。

5.hard negative mining(难例挖掘)

参见此知乎回答。大量的简单负例会使真正的对训练有意义的难例的梯度被“淹没”。难例挖掘就是在训练时,尽量多挖掘其难负例加入负样本集,这样比easy negative组成的负样本集更好。[具体的R-CNN中的hard negative mining]。

6.sparse tensors和作者定义的generalized(广义)sparse convolution

在作者的工作中的3D data是对物体表面的3D扫描。在这样的3D空间中,大部分的空间是empty的。为了解决这种高维的稀疏矩阵,论文作者用sparse tensor,一个sparse tensor可以用一个矩阵Matrix去表示其坐标,另一个矩阵‘向量‘代表其特征(Features):

接着作者定义了广义的稀疏卷积。系数卷积不是第一次出现,作者在这里只是描述。不过作者这种定义方法确实不容易理解,我的意思是所用的数学公式。如图所示。

在稀疏的卷积中和权值${W}$相乘的${x}$必须在${C}$中,这样的系数卷积得到的也是一个稀疏的结果。文中的${V^(3){-1,0,1}}$我觉得其中的元素不必是固定的${{-1,0,1}}$,如果非要是这样,卷积(相关)就无法计算了(这也是我在阅读时遇到的困惑)。当然最主要的还是要在code中去实现这个系数卷积。[接下来的时间我会探索一下]。

文章正文:

从3D扫描或者是点云上提取几何特征是许多工作的第一步。例如注册(registration),重建(reconstruction)和跟踪(tracking)。现今的(state of art)方法需要将低阶(low-level)的特征作为输入来计算。

“低层次特征提取算法基于兴趣点所在表面及临近点的空间分布,提取基本的二维、三维几何属性作为兴趣点特征信息,如线性、平面性等。低层次特征提取算法复杂度低、运算效率高、内存消耗少,但领域尺寸的选择对识别效果影响较大。”

“高层次特征提取算法基于低层次几何特征及临近点空间分布,定义并计算更复杂的几何属性作为特征信息。根据几何属性的定义又可细分为基于显著性、基于直方图、基于显著性直方图与基于其他特征的四大类提取算法[1][2]。”

或者是基于有限感知域的块特征。在该文章中作者提出了有3D全卷积网络计算得来的一种全卷积的几何特征。同时作者提出了一个metric learning 的损失函数,这个损失函数极大的提高了算法的性能。

接着作者吹捧了一波自己的全卷积几何特征,说这种特征是很紧凑(compact),然后能结合很大的空间的上下文的信息,而且能够拓展到很大的场景(scenes)。接着说这种特征不需要预处理(preprocessing),在室内和室外的数据集上比之前最精确的方法快290倍,而且自己的特征维数只有32维哦~

给张图感受下全卷积特征的“统治力”:

这里说明下指标:recall 中文叫查全率又叫召回率,其计算公式如下:

$recal{l_c} = \frac{{T{P_c}}}{{T{P_c} + F{N_c}}}$

意思是某一类判断正确占到该类总数的百分比。理所当然的想要提升recall可以遵循“宁可错杀一百,不可放过一人”的思想。嘿嘿~

接着我们给出作者用的网络框架:

这是一个ResUNet的架构,两个白框是输入输出层,每个块用三个参数来描述:kernel size, stride, channel dimensionality.(核大小,步幅,和通道维度)除了最后一层其他的卷积层后面都有Batch normalization然后跟一个非线性(Relu).

那说了半天啥是全卷积特征啊?

全卷积特征作者说了:

我给你翻译翻译:

全卷积网络纯粹的由具有平移不变性的操作组成,像卷积和元素级别的非线性。(我不懂啥是元素级别的非线性啊?)同样,我们吧稀疏卷积网络(注这里是因为他用的稀疏卷积所以将这个网络将spase convolution network)给一个稀疏的tensor用上,我们得到的也是个稀疏的tensor,我们把这个稀疏的tensor输出叫做全卷积特征。

OK。

重头戏来了,嘿嘿~

作者自己说自己搞了个新的Metric learning的新的损失函数。在看他的新家伙式儿之前,我们不妨回顾下他站在谁的肩膀上搞了个大新闻。。

在前面的背景知识里有提到,就是negative mining 和标准的metric learning 的损失函数。这个作者说自己用全卷积网络了搞了个metric learning,而且还把negative mining整合到对比损失函数和三元组损失函数里了,他自己把整合后的这个新的损失函数叫做“Hardest contrastive"和”hardest-triplet"

网络:“我太难了(哭腔)"。

好言归正传,想要搞metric learning必须遵循两个约束,一个是类似的特征必须和彼此之间挨的足够近,对于分类来说,肯定是越近越好,那么有

$D({{f}_{i}},{{f}_{j}})\to 0\forall (i,j)\in P$

啥意思?${P}$是正确配对feature-match成功的特征,${(i,j)}$是其中的一个组合。相反的不相似的特征必然挨的越远越好,那我们就给他一个警戒线称之为margin(注:margin在英语里由差距,差额之意)用数学来说就是

$D({{f}_{i}},{{f}_{j}})>m\forall (i,j)\in N$

这里的${D}$是一种距离的衡量手段,原文没说啥距离,我觉得应该可以用欧氏距离。

文章说Lin等人说这些对于正例的约束会导致网络过拟合,然后搞出个针对正例的基于margin的损失函数。式子里右下角的+号代表着大于0时就取这个值,否则就取0。说实话,我因为一直吧这里边的${I_{ij}}$当是个示性函数,以为根据后边中括号里边的东西来取值,一直没搞懂,后来偶来见发现tm这两货是分开的。我真想吐槽这作者。。

作者的对正例加了个margin的约束后,可以解决网络过拟合的现像。

接着又弄个三元组(triplet loss)损失,我一并给出原文,瞅瞅:

在许多的文献了这篇文章后边也用了,这(4)里边的这个${f}$叫做anchor(中文名叫锚)而${f_+}$代表正例里边的元素。带负号的就不难说了。

在negative mining里边就说了,网络的性能会被小部分”人"左右,是谁呢?就是那些对于网络来说非常难啃的硬骨头——“hardest negatives"

接着作者讨论一个容易被人忽视,但却至关重要的存在:全卷积特征的特性

传统的Metric learning 认为特征是独立同分布的(iid),为啥?作者说了:

因为batch是随机采样来的。

这里需要和大家回顾下啥是epoch,batch,iteration???

  • epoch:代表在整个数据集上的一次迭代(所有一切都包含在训练模型中);
  • batch:是指当我们无法一次性将整个数据集输入神经网络时,将数据集分割成的一些更小的数据集批次;
  • iteration:是指运行一个 epoch 所需的 batch 数。举个例子,如果我们的数据集包含 10000 张图像,批大小(batch_size)是 200,则一个 epoch 就包含 50 次迭代(10000 除以 200)。

虽说基础,但也要温故而知新嘛~

然而,然而...

在全卷积特征的提取过程中,相邻特征的位置是相关的。(我也不懂...)

原文地址:https://www.cnblogs.com/saurywb/p/12168610.html

时间: 2024-11-05 21:52:59

#ICCV2019论文阅读#Fully_convolutional_Features的相关文章

论文阅读方法

论文阅读方法 别先读摘要,从导言部分入手 找出大问题 这个领域正在设法解决什么问题? 以不超过5句话的篇幅总结背景 为解决这一"大问题",这一领域做过什么努力?之前的工作有什么局限?在作者看来,下一步需要做什么?简洁地解释为什么要进行这项研究. 找出具体问题 作者在他们的研究中究竟想回答什么问题?把这些问题(不一定是一个)写下来.如果是那种研究一个或者多个零假设的研究,把零假设辨别出来. 弄清解决手段 为了回答这些具体的问题,作者要怎么做? 阅读方法部分 为每一个实验画出一个图表,画出

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

论文阅读--Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov 引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Confere

论文阅读记录: Automatic Image Colorization sig16

sig论文阅读记录 Let there be Color!: Joint End-to-end Learning of Global and Local Image Priorsfor Automatic Image Colorization with Simultaneous Classification ( siggraph 2016 ) 论文简介 论文主页:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/ 作者是来自Wa

论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection

论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述 目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介 再啰嗦一下基于anchor的检测算法的缺陷: 1.检测

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd 2019年04月11日 23:08:02 Kivee123 阅读数 836 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_37014750/article/details/89222334 Adaptive-NMS(CVPR 2019) 文章  又是一篇在NMS上

论文阅读:《Bag of Tricks for Efficient Text Classification》

论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954更多 分类专栏: 深度学习 自然语言处理 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u011239443/article/details/80076720 https://blog.csdn.ne

论文阅读与模型复现——HAN

论文阅读论文链接:https://arxiv.org/pdf/1903.07293.pdf tensorflow版代码Github链接:https://github.com/Jhy1993/HAN 介绍视频:https://www.bilibili.com/video/av53418944/ 参考博客:https://blog.csdn.net/yyl424525/article/details/103804574 文中提出了一种新的基于注意力机制的异质图神经网络 Heterogeneous G