【论文笔记】Leveraging Datasets with Varying Annotations for Face Alignment via Deep Regression Network

參考文献:

Zhang J, Kan M, Shan S, et al. Leveraging Datasets With Varying Annotations for Face Alignment via Deep Regression Network[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3801-3809.

简单介绍

眼下网上发布的人脸关键点的数据集非常多,但标注标准却往往不统一、标定点数也不尽同样。将这些数据合并起来非常重要,可是训练一个统一的模型却比較困难。ICCV 2015的这篇文章提出了一种基于深度回归网络(deep regression network)和稀疏形状回归方法,可以在不同点数的数据集上训练一个统一的关键点检測模型。同一时候可以取得比单个训练集更好的结果。

算法介绍

1. 算法总流程

算法流程如图所看到的:

如果有若干不同点数、不同图片的人脸关键点数据集。(1)H 表示稀疏形状回归模型,它能将预计每一个数据集中相对于全部数据集关键点类型总和的未标注的关键点; (2)将每一个数据集的关键点个数通过 H 补齐后, F 表示深度回归网络,训练和检測图片中全部的关键点的检測模型。(1)(2)过程是一个重复迭代更新的过程。

通过这种一个训练过程,就能训练一个可以合并全部不同数据集的人脸关键点检測模型。

如果有 n 个人脸关键点数据集{D1,D2,...,Dn},每一个数据集包括了不同点数pi的关键点 Si∈Rpi×2。作者目标是建立一个深度回归网络 F,可以检測全部关键点类型的合集 S=S1∪S2∪...∪Sn。这样就须要依据ground truth和初始化形状 Sˉ,求解满足下面公式的 F:

F?=argmin F∑I∈D||S?(F(?(I,Sˉ))+Sˉ)||22

当中 I 为数据集D D 中的人脸图片,? 为特征提取函数。

数据集 Di 仅仅有第 i类型的关键点,其他类型的关键点并不存在。可是可以依据不同类型关键点之间的相关性。使用其他数据集的关键点来预计当前数据集的关键点。

作者使用了稀疏表达模型 H 来预计这些并不存在的关键点,因此以上公式就演变为:

{F?,H?}=argminF∑I∈D||SH(I)?(F(?(I,Sˉ))+Sˉ)||22

当 I∈Di时,H 第 i 种类型的关键点是已经标注好的,而其他 n?1 种类型的关键点则使用 H 预计生成。

2. 方法流程细节

2.1 深度回归模型

与 SDM/LBF相似,作者也使用了回归方法训练和測试图像特征到关键点位置的映射。差别是使用深度回归网络从初始形状開始回归 (深度学习已经占据各领域,不能被落下呀):

ΔS=F(I)=(fl(fl?1(...f1(?(I,Sˉ)))))

当中 fl 为深度回归网络的第l 层隐层。

2.2 稀疏回归模型

尽管各个数据集 Di的关键点定义并不同样,可是之间有着非常强的关联,作者使用了稀疏矩阵依据其他数据集的关键点类型来预计当前数据集上未标记的关键点, H=[S?1;S?2;???;S?i?1;Si;S?i+1;???;S?n]∈Rp×2:

Sj?=Hij?Si

当中 Hij∈Rpj×pi是 一个 预计 Di 数据集中未标记的关键点 Sj^∈Rpj×2 的稀疏矩阵。

这样总流程的公式,可以写为还有一种形式:

{F?,H?}=argminF,H∑ni=1∑I∈Di||Hi?Si(I)?(F(?(I,Sˉ))+Sˉ)||22

2.3 训练模型

上述公式有两个模型參数须要训练,作者採用了固定一个參数,训练还有一个的迭代循环直到收敛的方法来求最优解。

每次迭代过程,作者採用了 L-BFGS 方法 (On optimization methods for deep learning,这个以后细看)解决。

与以往算法的不同

(1)“Collaborative facial landmark localization for transferring annotations across datasets”论文中提到的算法。须要依据训练集和測试集全部图片的关系预计映射关系。再对測试集全部图片进行关键点检測,并且训练过程中,也是针对各个数据集分别训练不同的模型。

而本论文算法是将全部的数据集整合进行统一关键点数模型的训练,终于得到一个检測模型,可以方便地对一张图片进行单独检測。

(2)“Transferring landmark annotations for cross-dataset face alignment”论文中的算法 transductive alignment method (TCR)须要不同数据集的关键点的交集作为相互关联,并且在预计未标记的关键点之后,不会再有更新。而本文则不须要关键点的交集作为关联,并且在模型參数训练的过程中。预计的关键点在每次迭代过程中都会随着模型的变化而更新,因而也更加准确。

实验结果

1、作者将不同的数据集相整合进行模型训练。比基于不同的训练集单独训练的模型的精度有所提高,但比真实的数据略差些(这也在情理之中):

2、作者将DRN和SSR方法相结合,进一步提高了DRN的准确率:

3、作者又将DRN-SSR与之前的SDM、RCPR进行了比較。实验结果均优于这些算法:

总结

作者通过 DRN和SSR将多类人脸关键点数据融合。取得了比单个数据集训练模型更好的结果。终于的模型也较为有用(可为我所用。毕竟手头数据多。如何整合一直比較头疼)。

PS

前一段时间因为操作失误,将这篇博客不小心删除(同一时候小吐槽下csdn的博客设置)。我这里没有备份,准备重写时无意发现网络上有人转载了我这篇文章(当然没有写明出处,公式也是乱码),我就拿过来回笼了一篇。

这也算是盗版给原作者的贡献了,哈哈。

时间: 2024-10-15 01:32:10

【论文笔记】Leveraging Datasets with Varying Annotations for Face Alignment via Deep Regression Network的相关文章

论文笔记 Deep Patch Learning for Weakly Supervised Object Classi cation and Discovery

Background 1) "Patch-level image representation"的优势 "Patch-level image representation is very important for object classification and detection, since it is robust to spatial transformation, scale variation, and cluttered background" &

【论文笔记】Recursive Recurrent Nets with Attention Modeling for OCR in the Wild

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. <Recursive Recurrent Nets with Attention Modeling for OCR in the Wild>已经被CVPR 2016(CV领域三大顶会之一)正式接收了,主要是介绍了

论文笔记(1)——《Where&#39;s Wally?Precise User Discovery Attacks in Location Proximity Services》

Abstract: 位置相近服务在社交和移动网络的广泛使用是基于可用性和用户隐私的平衡,但引发了三角定位攻击的风险.文章系统化地讨论了此类攻击的防范,包括问题在不同临近模型下的形式化,针对不同模型的有效攻击,以及攻击需要的询问次数的确界,并针对实际应用进行实验. 一)对攻击的建模:UDP,已知包含点p的欧氏平面区域A以及一个提供邻域信息的黑箱,找到点p的位置 邻域(proximity oracle)定义:,以某点为圆心的区域 原问题化为两部分: 1)Disk Coverage:将A用最少的r-邻

Kalman论文笔记

笔者前段时间阅读了一些关于Kalman的姿态论文,本想把Kalman的知识点也整理出来发布,无奈这编辑器不给力,太多的公式无法复制粘贴,图片格式上传的太复杂,就放弃了.因此笔者只发布Kalman的论文笔记,用表格的形式分析了几篇论文的Kalman filter的结构,希望对大家有帮助. 表格中包含有 论文名称 状态变量 转移矩阵 观测变量 观测矩阵 过程噪声 观测噪声 备注 百度网盘:pan.baidu.com/s/1kT1iC6r

DL4NLP —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型

看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.应用场景:比如说用户在拍了一张照片后,利用Image Caption技术可以为其匹配合适的文字,方便以后检索或省去用户手动配字:此外它还可以帮助视觉障碍者去理解图像内容.类似的任务还有Video Caption,输入是一段视频,输出是对视频的描述. (一)任务描述 目前来说,Image Caption任务主要集中在英文上,数

Twitter 新一代流处理利器——Heron 论文笔记之Heron架构

Twitter 新一代流处理利器--Heron 论文笔记之Heron架构 标签(空格分隔): Streaming-process realtime-process Heron Architecture Heron 架构如下图: 用户编写发布topoloy到Aurora调度器.每一个topology都作为一个Aurora的job在运行.每一个job包括几个container,这些container由Aurora来分配和调度.第一个container作为Topology Master,其他的Cont

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke

【转】Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现

原作者:zouxy09 原文链接:http://blog.csdn.net/zouxy09/article/details/9993371 Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 [email protected] http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己

Staple: Complementary Learners for Real-Time Tracking 论文笔记

Staple: Complementary Learners for Real-Time Tracking 论文笔记  相关滤波相关的跟踪算法,最近非常的流行,对运动模糊和光照变换有一定的鲁棒性.但是,由于像模型展示的那样,他们的跟踪结果严重的依赖于跟踪物体的空间布局,对形变非常的敏感(deformation).基于颜色统计的模型有互补的性能:他们对物体的外形有较好的处理能力,但是,对出现的光照变量却无法很好的应对.此外,仅仅依赖于颜色统计,没有那么好的判别性.本文提出一种简单的跟踪算法,结合互