论文笔记--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

  1. 测试demo:https://github.com/Jack-CV/PCN
  2. 关键词:rotation-invariant face detection, rotation-in-plane, coarse-to-fine
  3. 核心概括:该篇文章为中科院计算所智能信息处理重点实验室VIPL课题组,邬书哲博士在CVPR2018上的论文。论文主要针对的是在不同平面角度下的人脸检测,主题思想可以概括为Progressive Calibration Networks(PCN), 即逐步校正不同角度的人脸。
  4. 已有方法:目前,针对平面角度的人脸检测主要有3种策略,即data augmentation, divide-and-conquer, rotation router。

4. 改进:作者为了快速地检测不同平面角下的人脸(0°~360°),通过逐级校正的路线,针对第一级检测出来的人脸,将为[-180°, 180°]的人脸翻转到[-90°, 90°]。这一步简单来说,就是把朝下的人脸翻转为朝上,这样就减少了一半的角度范围。第二级再继续以两条±45°的轴进行翻转,将人脸的角度范围限制到[-45°, 45°]。第三级,使用角度偏差回归预测精准的角度。校正流程如下:

5. 样本划分:

Positive, IOU > 0.7

Negative, IOU < 0.3

Suspected,  IOU ∈[0.3, 0.7]

Positive 和 negative 用于人脸分类,positive 和suspected 用于人脸框的回归和角度校正。

需要说明的是,

三级网络的训练样本输入分别为24x24,24x24,48x48。

对于第一级网络,人脸范围划分为2部分,人脸朝上的角度范围是[?65°,65°], 人脸朝下的范围是[-180°,-115°]∪[115°,180°],其他角度范围不作训练数据。可以定义朝上的label为0,朝下的为1。

对于第二级网络,人脸范围划分为3部分,分别为[-90°,-45°],[-45°,45°],[45°,90°],可以定义label分别为0,1,2。

对于第三级网络,人脸范围为[-45°,45°],与前两个网络不同,训练的任务是人脸角度的回归。

6. 训练细节:

每个batch里的样本比例,positive: negative:suspected=2:2:1

max_iters:100,000

type:SGD

lr_base:0.001

gamma:0.1

lr_policy:step

step:70,000

wd:0.0005

7. 网络结构:

8. 算法介绍:

8.1 PCN-1

对于每一个输入的滑窗,第一级网络有3个目标:人脸与非人脸的判断(f),人脸框的回归(t),角度的分类score(g)。

第一个目标f,使用softmax-loss,y=1 if face else 0

第二个目标t,使用 l1 loss

  

人脸框的回归由3部分组成,w代表宽度,(a,b)代表人脸框的左上角坐标

  

第三个目标g,和第一个类似使用softmax-loss, y=1 if face is up else 0

  

最终的loss为,λ为各个loss 的weight

第一级的人脸角度划分,根据预测的θ进行划分,0°表示人脸朝上,不翻转;180°表示人脸朝下,进行翻转。

  

8.2 PCN-2

第二级与第一级类似,只是角度的校正范围发生了变化,转变为[-90°,-45°],[-45°,45°],[45°,90°]

8.3 PCN-3

经过第二级的校正之后,人脸的范围已经校正到竖直的一个区域。通过直接对角度进行回归,使用的loss变为l1 loss。

最终的角度可以由3级网络检测的角度进行叠加得到。

  

9. 实验结果:

  

  

  

原文地址:https://www.cnblogs.com/danpe/p/8970758.html

时间: 2024-10-12 06:45:44

论文笔记--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks的相关文章

【论文笔记】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. ------------------------------------------------ <Faster R-CNN: Towards Real-Time Object Detection with Reg

论文笔记:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks

文章: http://arxiv.org/abs/1506.01497 源码:坐等.... 目录: Region Proposal Networks Translation-Invariant Anchors A Loss Function for Learning Region Proposals Optimization Sharing Convolutional Features for Region Proposal and Object Detection Implementation

论文笔记之:UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS

UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS  ICLR 2016  摘要:近年来 CNN 在监督学习领域的巨大成功 和 无监督学习领域的无人问津形成了鲜明的对比,本文旨在链接上这两者之间的缺口.提出了一种 deep convolutional generative adversarial networks (DCGANs),that have certai

论文笔记(1)——《Where&#39;s Wally?Precise User Discovery Attacks in Location Proximity Services》

Abstract: 位置相近服务在社交和移动网络的广泛使用是基于可用性和用户隐私的平衡,但引发了三角定位攻击的风险.文章系统化地讨论了此类攻击的防范,包括问题在不同临近模型下的形式化,针对不同模型的有效攻击,以及攻击需要的询问次数的确界,并针对实际应用进行实验. 一)对攻击的建模:UDP,已知包含点p的欧氏平面区域A以及一个提供邻域信息的黑箱,找到点p的位置 邻域(proximity oracle)定义:,以某点为圆心的区域 原问题化为两部分: 1)Disk Coverage:将A用最少的r-邻

Kalman论文笔记

笔者前段时间阅读了一些关于Kalman的姿态论文,本想把Kalman的知识点也整理出来发布,无奈这编辑器不给力,太多的公式无法复制粘贴,图片格式上传的太复杂,就放弃了.因此笔者只发布Kalman的论文笔记,用表格的形式分析了几篇论文的Kalman filter的结构,希望对大家有帮助. 表格中包含有 论文名称 状态变量 转移矩阵 观测变量 观测矩阵 过程噪声 观测噪声 备注 百度网盘:pan.baidu.com/s/1kT1iC6r

DL4NLP —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型

看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.应用场景:比如说用户在拍了一张照片后,利用Image Caption技术可以为其匹配合适的文字,方便以后检索或省去用户手动配字:此外它还可以帮助视觉障碍者去理解图像内容.类似的任务还有Video Caption,输入是一段视频,输出是对视频的描述. (一)任务描述 目前来说,Image Caption任务主要集中在英文上,数

论文笔记 Deep Patch Learning for Weakly Supervised Object Classi cation and Discovery

Background 1) "Patch-level image representation"的优势 "Patch-level image representation is very important for object classification and detection, since it is robust to spatial transformation, scale variation, and cluttered background" &

Twitter 新一代流处理利器——Heron 论文笔记之Heron架构

Twitter 新一代流处理利器--Heron 论文笔记之Heron架构 标签(空格分隔): Streaming-process realtime-process Heron Architecture Heron 架构如下图: 用户编写发布topoloy到Aurora调度器.每一个topology都作为一个Aurora的job在运行.每一个job包括几个container,这些container由Aurora来分配和调度.第一个container作为Topology Master,其他的Cont

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke