Learning Temporal Pose Estimation from Sparsely-Labeled Videos

facebook AI 出品

之前的关键点论文大多是在静态图片上进行关键点识别,作者的工作是在不完全标注的视频序列中识别关键点,方法是每k帧进行一次关键点标注,标注的帧和某帧未标注的帧进行特征的warping,进行预测标注帧的结果,利用标注帧的结果反向优化未标注帧的关键点结果。

《摘要》

现在视频中的多人关键点识别需要密集标注,资金和劳动力消耗大。作者提出的
PoseWarper
网络利用训练视频每K帧一标注的稀疏标注来实现密集关键点的反向传播和估计。对于已标注的视频帧A和未标注的视频帧B,A利用通过反卷积提取的B的特征学习A与B的特征扭曲。该方法的优点是:

1、at
inference time we can reverse the application direction of our
network in order to propagate pose information from manually
annotated frames to unlabeled frames

2、we
can improve the accuracy of a pose estimator by training it on an
augmented dataset

3、we
can use our PoseWarper to aggregate temporal pose information from
neighboring frames during inference

开源代码:
https://github.com/facebookresearch/PoseWarper

文章地址:https://arxiv.org/pdf/1906.04016.pdf

《介绍》

首先介绍关键点以前聚焦与静止图片到现在处理视频的问题,视频需要考虑运动模糊、失焦、遮挡等问题,然后介绍作者方法的优点。

1、利用反向传播,用少数量有标签的样本信息得到没有标签信息的关键点估计

2、反向传播相当于制造了伪标签。

3、推理时可以利用临近帧的信息。

《相关工作》

介绍了图像中的多人关键点识别方法,视频中的多人关键点识别方法。

确定文章的主要目的是从稀疏标注的视频中学习到一个有效的视频关键点识别检测子。

《The
PoseWarper Network》

this task would become trivial, as we would simply need to spatially “warp” the feature maps computed from frame B according to the set of correspondences relating frame B to frame A.

网络的目的是为了学习两帧之间的运动偏移,决定B中的哪些坐标可以被采样用于A的预测。

Backbone Network:HRNet-W48

Deformable Warping.:

backbone CNN得到pose heatmaps,fa、fb,Wab=fa-fb, Wab是a stack of 3 × 3 simple residual blocks的输入,输出是Oab,Oab输入dilation不同的一系列3x3卷积层,在每个坐标点pn 得到相应的偏移集合 o(d)(pn) ,不同的dilation是为了得到在不同的空间尺度下的运动线索,预测到的偏移量是为了在空间上扭曲B的特征,五个偏移集合相加得到gAB,用来在A上进行预测。

Loss Function:omputes
a mean squared error,applying
a 2D Gaussian around the location of each joint

Pose Annotation Propagation:将AB之间的特征图大小相等,可以匹配A的真值yA,这样可以进行反向传播,we
can predict the offsets for warping ground-truth heatmap yA to an
unlabeled Frame B, from the feature difference WBA = fB −
fA,然后可以得到yA与B之间的扭曲。

Temporal Pose Aggregation at Inference
Time:u使用反卷积扭曲机制来聚集推理时附近视频帧的关键点信息来提升关键点检测的准确性。时间t时的图像帧,会聚集
时间在t + δ 时的视频帧信息,δ
在(−3;
−2; −1; 0; 1; 2; 3)范围内.
此方法使算法对
occlusions, motion blur, and video defocus更鲁棒。

《实验》

《结论》

原文地址:https://www.cnblogs.com/xiaoheizi-12345/p/12104206.html

时间: 2024-10-11 22:23:47

Learning Temporal Pose Estimation from Sparsely-Labeled Videos的相关文章

Heterogeneous Multi-task Learning for Human Pose Estimation with Deep Convolutional Neural Network

论文题目Heterogeneous Multi-task Learning for Human Pose Estimation with Deep Convolutional Neural Network, 链接 该篇论文是IJCV 2014的, 文章的核心multi-tasks的joint traning. 直接看图说话, 该论文的核心思想/步骤可以分为两个components: 1对图像里面的person进行detection, 以便裁剪出图像里面的人. 这个显然是必要的, 尤其是图像大而p

paper 154:姿态估计(Hand Pose Estimation)相关总结

Awesome Works  !!!! Table of Contents Conference Papers 2017 ICCV 2017 CVPR 2017 Others 2016 ECCV 2016 CVPR 2016 Others 2015 ICCV 2015 CVPR 2015 Others 2014 CVPR 2014 Others & Before Journal Papers Theses Datasets Challenges Other Related Papers Eval

6D姿态估计从0单排——看论文的小鸡篇——Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects in Heavily Cluttered Scenes

这是linemod的第二篇,这一篇把训练从online learning 变成了 使用3D model, 并且对于检测结果用 3种方法: color.Pose.Depth来确保不会有false positive.感觉有种不忘初心的感觉(笑 基于linemod,是前一篇的改良 initial version of LINEMOD has some disadvantages. First, templates are learnede online, which is difficule to c

caffe openpose/Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields配置(转)

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 是CVPR2017的一篇论文,作者称是世界上第一个基于深度学习的实时多人二维姿态估计. 优酷演示地址:链接 前几天作者公布了windows下的代码,下面来说说如何配置: 英文配置地址可以参考作者的github:https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/doc/inst

caffe openpose/Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields配置(转)

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 是CVPR2017的一篇论文,作者称是世界上第一个基于深度学习的实时多人二维姿态估计. 优酷演示地址:链接 前几天作者公布了windows下的代码,下面来说说如何配置: 英文配置地址可以参考作者的github:https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/doc/inst

human pose estimation

2D Pose estimation主要面临的困难:遮挡.复杂背景.光照.真实世界的复杂姿态.人的尺度不一.拍摄角度不固定等. 单人姿态估计 传统方法:基于Pictorial Structures, DPM ? 基于深度学习的算法包括直接回归坐标(Deep Pose)和通过热力图回归坐标(CPM, Hourlgass) 目前单人姿态估计,主流算法是基于Hourlgass各种更改结构的算法. 多人姿态估计 二维图像姿态估计基于CNN的多人姿态估计方法,通常有2个思路(Bottom-Up Appro

Pose Estimation

Human Pose Estimation for Real-World Crowded Scenarios https://arxiv.org/pdf/1907.06922.pdf CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark https://arxiv.org/pdf/1812.00324.pdf 原文地址:https://www.cnblogs.com/haiyang21/p/11734855

在自遮挡下的单目图像3D姿态估计 Monocular Image 3D Human Pose Estimation under Self-Occlusion (ICCV 13)

Monocular Image 3D Human Pose Estimationunder Self-Occlusion (ICCV 13) 在自遮挡下的单目图像3D姿态估计 摘要:文中提出在单张图片中3D姿态自动重建的方法.人体关节.易产生幻觉的身体部位的存在,杂乱的背景,都将导致人体姿态判断的歧义性,这都说明这不是一个简单的问题.研究者研究了许多基于运动和阴影的方法,为了减小歧义性,并对3D姿态进行重建.我们算法的关键思想就是增加运动和方向限制.前一个是在3D模型映射到输入图像时增加的限制,

相机姿态估计(Pose Estimation)

根据相机成像原理我们知道相机成像平面的投影点像素坐标 $p=KP$.其中K是相机内参数矩阵,P是空间点的3D坐标,p和P都是齐次坐标,该等式在齐次意义下成立(即乘任意常数都成立). 于是对于两个相机各自的坐标系,有:$$p_0=KP,p_1=K(RP+t)$$ 其中R为旋转矩阵(Rotation),t为平移向量(Translation).令$x = K^{-1}p$,去掉内参K归一化成: $$x_0=P, x_1=RP+t$$ 由这两式得:$$x_1 = Rx_0+t$$