论文笔记--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

测试demo：https://github.com/Jack-CV/PCN
关键词：rotation-invariant face detection， rotation-in-plane， coarse-to-fine
核心概括：该篇文章为中科院计算所智能信息处理重点实验室VIPL课题组，邬书哲博士在CVPR2018上的论文。论文主要针对的是在不同平面角度下的人脸检测，主题思想可以概括为Progressive Calibration Networks（PCN），即逐步校正不同角度的人脸。
已有方法：目前，针对平面角度的人脸检测主要有3种策略，即data augmentation， divide-and-conquer， rotation router。

4. 改进：作者为了快速地检测不同平面角下的人脸（0°~360°），通过逐级校正的路线，针对第一级检测出来的人脸，将为[-180°, 180°]的人脸翻转到[-90°, 90°]。这一步简单来说，就是把朝下的人脸翻转为朝上，这样就减少了一半的角度范围。第二级再继续以两条±45°的轴进行翻转，将人脸的角度范围限制到[-45°, 45°]。第三级，使用角度偏差回归预测精准的角度。校正流程如下：

5. 样本划分：

Positive， IOU > 0.7

Negative， IOU < 0.3

Suspected, IOU ∈[0.3, 0.7]

Positive 和 negative 用于人脸分类，positive 和suspected 用于人脸框的回归和角度校正。

需要说明的是，

三级网络的训练样本输入分别为24x24，24x24，48x48。

对于第一级网络，人脸范围划分为2部分，人脸朝上的角度范围是[?65°,65°]，人脸朝下的范围是[-180°，-115°]∪[115°，180°]，其他角度范围不作训练数据。可以定义朝上的label为0，朝下的为1。

对于第二级网络，人脸范围划分为3部分，分别为[-90°，-45°]，[-45°，45°]，[45°，90°]，可以定义label分别为0，1，2。

对于第三级网络，人脸范围为[-45°，45°]，与前两个网络不同，训练的任务是人脸角度的回归。

6. 训练细节：

每个batch里的样本比例，positive： negative：suspected=2：2：1

max_iters:100,000

type:SGD

lr_base:0.001

gamma:0.1

lr_policy:step

step:70,000

wd:0.0005

7. 网络结构:

8. 算法介绍：

8.1 PCN-1

对于每一个输入的滑窗，第一级网络有3个目标：人脸与非人脸的判断（f），人脸框的回归（t），角度的分类score（g）。

第一个目标f，使用softmax-loss，y=1 if face else 0

第二个目标t，使用 l₁loss

　　

人脸框的回归由3部分组成，w代表宽度，（a,b）代表人脸框的左上角坐标

　　

第三个目标g，和第一个类似使用softmax-loss， y=1 if face is up else 0

　　

最终的loss为，λ为各个loss 的weight

第一级的人脸角度划分，根据预测的θ进行划分，0°表示人脸朝上，不翻转；180°表示人脸朝下，进行翻转。

　　

8.2 PCN-2

第二级与第一级类似，只是角度的校正范围发生了变化，转变为[-90°，-45°]，[-45°，45°]，[45°，90°]

8.3 PCN-3

经过第二级的校正之后，人脸的范围已经校正到竖直的一个区域。通过直接对角度进行回归，使用的loss变为l₁loss。

最终的角度可以由3级网络检测的角度进行叠加得到。

　　

9. 实验结果：

　　

　　

　　

原文地址：https://www.cnblogs.com/danpe/p/8970758.html

时间： 2024-10-12 06:45:44

论文笔记--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks的相关文章

【论文笔记】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. ------------------------------------------------ <Faster R-CNN: Towards Real-Time Object Detection with Reg

论文笔记：Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks

文章: http://arxiv.org/abs/1506.01497 源码:坐等.... 目录: Region Proposal Networks Translation-Invariant Anchors A Loss Function for Learning Region Proposals Optimization Sharing Convolutional Features for Region Proposal and Object Detection Implementation

论文笔记之：UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS

UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS ICLR 2016 摘要:近年来 CNN 在监督学习领域的巨大成功和无监督学习领域的无人问津形成了鲜明的对比,本文旨在链接上这两者之间的缺口.提出了一种 deep convolutional generative adversarial networks (DCGANs),that have certai

论文笔记（1）——《Where's Wally?Precise User Discovery Attacks in Location Proximity Services》

Abstract: 位置相近服务在社交和移动网络的广泛使用是基于可用性和用户隐私的平衡,但引发了三角定位攻击的风险.文章系统化地讨论了此类攻击的防范,包括问题在不同临近模型下的形式化,针对不同模型的有效攻击,以及攻击需要的询问次数的确界,并针对实际应用进行实验. 一)对攻击的建模:UDP,已知包含点p的欧氏平面区域A以及一个提供邻域信息的黑箱,找到点p的位置邻域(proximity oracle)定义:,以某点为圆心的区域原问题化为两部分: 1)Disk Coverage:将A用最少的r-邻

Kalman论文笔记

笔者前段时间阅读了一些关于Kalman的姿态论文,本想把Kalman的知识点也整理出来发布,无奈这编辑器不给力,太多的公式无法复制粘贴,图片格式上传的太复杂,就放弃了.因此笔者只发布Kalman的论文笔记,用表格的形式分析了几篇论文的Kalman filter的结构,希望对大家有帮助. 表格中包含有论文名称状态变量转移矩阵观测变量观测矩阵过程噪声观测噪声备注百度网盘:pan.baidu.com/s/1kT1iC6r

DL4NLP —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型

看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.应用场景:比如说用户在拍了一张照片后,利用Image Caption技术可以为其匹配合适的文字,方便以后检索或省去用户手动配字:此外它还可以帮助视觉障碍者去理解图像内容.类似的任务还有Video Caption,输入是一段视频,输出是对视频的描述. (一)任务描述目前来说,Image Caption任务主要集中在英文上,数

论文笔记 Deep Patch Learning for Weakly Supervised Object Classication and Discovery

Background 1) "Patch-level image representation"的优势 "Patch-level image representation is very important for object classification and detection, since it is robust to spatial transformation, scale variation, and cluttered background" &

Twitter 新一代流处理利器——Heron 论文笔记之Heron架构

Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture Heron 架构如下图: 用户编写发布topoloy到Aurora调度器.每一个topology都作为一个Aurora的job在运行.每一个job包括几个container,这些container由Aurora来分配和调度.第一个container作为Topology Master,其他的Cont

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作. 在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的. 尽管最近的 CNN based tracke

猜你喜欢

Wcf体现Restful风格

Wcf体现Restful风格概述含状态传输(Representational State Transfer)的软件架构风格.主要特点 1. 资源是由URI来指定: 例如http://exampl ...

redis相关总结

1. 什么是redis redis是一个nosql(not only sql不仅仅只有sql)数据库.翻译成中文叫做非关系型型数据库. 关系型数据库:以二维表形式存储数据非关系型数据库: 以键值对形 ...

html学习笔记

XHTML 是以 XML 格式编写的 HTML. 如何从 HTML 转换到 XHTML 向每张页面的第一行添加 XHTML <!DOCTYPE> 向每张页面的 html 元素添加 xmln ...

10、[C++]原型模式

解决的问题: 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象. 这个其实和C++的拷贝构造函数的作用是一致的, 实际上就是动态抽取当前对象运行时的状态(好吧, 其实我还没弄懂两者的区别 ...

Spring动态数据源实现读写分离

一.创建基于ThreadLocal的动态数据源容器,保证数据源的线程安全性 package com.bounter.mybatis.extension; /** * 基于ThreadLocal实现的动 ...

2014061404吃豆豆(C++)

#include<cstdio> #include<algorithm> #define N 10010 using namespace std; int n,i,j,rd[N ...

\system\app 这个里面主要存放的是常规下载的应用程序,可以看到都是以APK格式结尾的文件, 在这个文件夹下的程序为系统默认的组件,自己安装的软件将不会出现在这里,而是\data\文件夹中. ...

NOI2009植物大战僵尸

这题应该分两步来做: 1.拓扑排序,去掉无敌点 2.求最大闭合子图需要注意几点: 1.拓扑排序时,如果(i,j)可以攻击到(x,y),那么增加(x,y)的入度,而不是(i,j)的入度因为入度代表着 ...

MyEclipse10 开发 Android 环境配置

RT... 最近趁我还有点时间,打算在搞下Android.. 现在来记录一下我在MyEclipse10 搭建Android环境. 首先就是你要装MyEclipse10 ..破解之类这么和谐的事情我是不 ...

PHP学习笔记：APACHE配置虚拟目录、一个站点使用多域名配置方式

我用的是xmapp lite2016的集成包,配置虚拟目录教程如下: 找到httpd-vhosts.conf这个文件,这个文件一般是在xampp\apache\conf\extra这个路径下面,找不到 ...

[LeetCode] Design Snake Game 设计贪吃蛇游戏

Design a Snake game that is played on a device with screen size = width x height. Play the game onli ...

PHP---抽象

被抽象关键字abstract所修饰的类就是抽象类抽象类不一定包含抽象函数方法:但是包含抽象函数方法的类一定是抽象类抽象类不能直接实例化被抽象关键字abstract修饰的方法就是抽象方法*抽象方法只有声 ...

Python Scarpy安装包

由于网络的原因,Scraoy无法安装 Cannot fetch index base URL https://pypi.python.org/simple/ 1. scrapy 安装所需要的包可以从 ...

Rsync 服务器端配置

Centos 6.3 已经自带Rsync服务安装xinetd # yum -y install xinetd 编辑/etc/xinetd.d/rsync文件,把disable = yes修改为dis ...

转载：全面理解面向对象的 JavaScript

来源:DeveloperWorks – 曾滢著简介: JavaScript 函数式脚本语言特性以及其看似随意的编写风格,导致长期以来人们对这一门语言的误解,即认为 JavaScript 不是一门面向 ...

libevent源码深度剖析一

libevent源码深度剖析一 --序幕张亮 1 前言 Libevent是一个轻量级的开源高性能网络库,使用者众多,研究者更甚,相关文章也不少.写这一系列文章的用意在于,一则分享心得:二则对libev ...

linux 磁盘配额设置

Linux是多用户多任务的操作系统,这就难免出现多个用户共享磁盘的情况,如何使多个用户公平的使用磁盘,就是磁盘配置要解决的问题.当然也可以在没创建一个用户的时候,将它的主目录建在一个单独的逻辑分区上, ...

黑马程序员__指针

指针定义指针是一种数据类型,可以定义一个变量,称为指针变量.指正变量表示的是其他某个变量的地址,也就是说,指针是用来储存地址的,而指针本身也是有自己的地址,指针变量所占的储存空间为8个字节. 为什 ...

不知道帐号密码的情况下完全重装Mac Min的OS X10.7系统

现状: 1.原系统OS X 10.7 2.老账号不知道密码 3.Mac小盒子目的: 1.删除老账号 2.更新系统到10.9以上尝试过程1: 1.按住option键 + 开机 2.选择“磁盘工具” ...

word中使用MathType能做什么

在Office中写论文,特别是一些比较专业的论文需要用到各种公式的.会发现有很多地方Office自带的公式编辑器都无法完成,所以要用到MathType公式编辑器这个好用的工具了.MathType是一款 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.