对DensePose: Dense Human Pose Estimation In The Wild的理解

  • 研究方法

    • 通过完全卷积学习从图像像素到密集模板网格的映射。将此任务作为一个回归问题,并利用手动注释的面部标注来训练我们的网络。使用这样的标注,在三维对象模板和输入图像之间,建立密集的对应领域,然后作为训练的回归系统的基础。论文指出可以将来自语义分割的想法与回归网络相结合,产生高精度的“量化回归”架构
    • Mask R-CNN 是一个两阶段的框架,第一个阶段扫描图像并生成提议(proposals,即有可能包含一个目标的区域),第二阶段分类提议并生成边界框和掩码。
    • Faster R-CNN 是一个流行的目标检测框架,Mask R-CNN 将其扩展为实例分割框架。
    • UV纹理贴图坐标
      • 对于三维模型,有两个最重要的坐标系统,一是顶点的位置(X,Y,Z)坐标,另一个就是UV坐标。U和V分别是图片在显示器水平、垂直方向上的坐标,取值一般都是0~1,也 就是(水平方向的第U个像素/图片宽度,垂直方向的第V个像素/图片高度。纹理映射是把图片(或者说是纹理)映射到3D模型的一个或者多个面上。纹理可以是任何图片,使用纹理映射可以增加3D物体的真实感。每个片元(像素)都有一个对应的纹理坐标。由于三维物体表面有大有小是变化的,这意味着我们要不断更新纹理坐标。但是这在现实中很难做到。于是设定了纹理坐标空间,每维的纹理坐标范围都在[0,1]中,利用纹理坐标乘以纹理的高度或宽度就可以得到顶点在纹理上对应的纹理单元位置。纹理空间又叫UV空间。对于顶点来说,纹理坐标相对位置不变。
  • 数据集
    • COCO-Densepose-dataset
    • 数据集标注
      • 数据库MSCOCO里面,挑选了50K个人,手动标注了近5百万的标注点。

        • Test测试集“1.5k images,2.3k humans”,Training训练集“48k humans”。
        • 传统标注是找到图像上的一个点,然后旋转图像和立体模型来实现精确坐标定位,但这样做效率太过低下。因此他们把标记工作分成两个阶段:先进行宏观的部位分割,再进行具体的对应注释。他们用一组大致等距的点对每个身体部位区域进行采样。
        • 对于一般的姿态识别(骨骼追踪),能够识别出一二十个点便可以构成一个人体姿态,但如果要构造出一个平滑的3D模型,则需要更多的关键点,DensePose需要336个(24个部位,每个部位14个点)
    • 标注过程
      • 在任何渲染的部位图像上为每个被采样的点定位其对应的表面点,他们标注了图像和 3D 表面模型的密集对应关系。红色叉号表示当前被标注的点。
      • 他们向标注者提供了人体部位的 6 个预渲染的视角,这样整个部位表面都是可见的。一旦标注了目标点,该点就会同时显示在所有渲染过的图像上
      • 标注上了UV坐标之后,可以将一个3D人物的表面经过变换投影到2D图像上,并且会根据2D图像中人物的姿态做适当的变换,从而使得3D模型的表面可以做到紧贴2D人物。
  • 网络结构
    • DensePose-RCNN

      • 基于caffe2框架
      • 研究团队采用的是金字塔网络(FPN)特征的RCNN结构
      • 区域特征聚集方式ROI align pooling以获得每个选定区域内的密集部分标签和坐标。
    • DensePose-RCNN系统可以直接使用标注点作为监督。
      • 它借用了Mask-RCNN的架构
      • 带有Feature Pyramid Network(FPN)的特征
      • 以及ROI-Align池化。
      • 除此之外,他们在ROI池化的顶层搭建了一个全卷积网络。
    • 补充
      • 这里“teacher net” (如上图所示)对整体进行辅助训练,它是一个完全卷积神经网络(FCNN),在给定图像尺度把图像和分割蒙版统一化。他们首先使用稀疏的、人工收集的监督信号训练一个“teacher net” ,然后使用该网络来修补用于训练我们的基于区域的系统的密集监督信号。
      • 同时他们利用了多任务的Multi-task cascaded architectures结构,将 mask 和 keypoint的输出特征 与 densepose 的特征互相融合训练。而且也可以看出来使用了多stage的思想,进行“中继监督”训练,利用了任务协同作用和不同监督来源的互补优势。通过级联进一步提升了准确度。
    • 输出三个内容 :身体部位分割,U 和 V。
    • 核心
      • 将2D图像中人的表面的像素投影到3D人体表面上,也可以在估计出图像中人体的UV之后,将3Dmodel通过变换,将空间坐标转换为UV坐标之后,贴到图像上。
    • 基于CNN的系统
      • 全卷积网络
      • mask R-CNN
      • 级联
  • 针对DensePose的研究思路
    • 数据集

      • 下载COCO-Densepose-dataset数据集
    • 神经网络
      • DensePose-RCNN

        • 基于caffe2框架
        • 它借用了Mask-RCNN的架构
          • Mask-RCNN

            • 基于Faster R-CNN

              • Fast R-CNN

                • R-CNN

                  • 基于

                    • 卷积神经网络(CNN)
                    • 线性回归
                    • 支持向量机(SVM)等算法
                  • 实现目标检测技术。
            • 与PSPNet相结合
          • 带有Feature Pyramid Network(FPN)的特征
          • 以及ROI-Align池化。
        • 除此之外,他们在ROI池化的顶层搭建了一个全卷积网络。
          • 这里“teacher net” (如上图所示)对整体进行辅助训练,它是一个完全卷积神经网络(FCNN),在给定图像尺度把图像和分割蒙版统一化。他们首先使用稀疏的、人工收集的监督信号训练一个“teacher net” ,然后使用该网络来修补用于训练我们的基于区域的系统的密集监督信号。
        • 级联
          • 同时他们利用了多任务的Multi-task cascaded architectures结构,将 mask 和 keypoint的输出特征 与 densepose 的特征互相融合训练。而且也可以看出来使用了多stage的思想,进行“中继监督”训练,利用了任务协同作用和不同监督来源的互补优势。通过级联进一步提升了准确度。
    • 核心
      • 将2D图像中人的表面的像素投影到3D人体表面上,也可以在估计出图像中人体的UV之后,将3Dmodel通过变换,将空间坐标转换为UV坐标之后,贴到图像上。
      • UV纹理贴图坐标
        • 对于三维模型,有两个最重要的坐标系统,一是顶点的位置(X,Y,Z)坐标,另一个就是UV坐标。U和V分别是图片在显示器水平、垂直方向上的坐标,取值一般都是0~1,也 就是(水平方向的第U个像素/图片宽度,垂直方向的第V个像素/图片高度。纹理映射是把图片(或者说是纹理)映射到3D模型的一个或者多个面上。纹理可以是任何图片,使用纹理映射可以增加3D物体的真实感。每个片元(像素)都有一个对应的纹理坐标。由于三维物体表面有大有小是变化的,这意味着我们要不断更新纹理坐标。但是这在现实中很难做到。于是设定了纹理坐标空间,每维的纹理坐标范围都在[0,1]中,利用纹理坐标乘以纹理的高度或宽度就可以得到顶点在纹理上对应的纹理单元位置。纹理空间又叫UV空间。对于顶点来说,纹理坐标相对位置不变。

原文地址:https://www.cnblogs.com/quxiangjia/p/12248553.html

时间: 2024-11-08 07:15:13

对DensePose: Dense Human Pose Estimation In The Wild的理解的相关文章

Heterogeneous Multi-task Learning for Human Pose Estimation with Deep Convolutional Neural Network

论文题目Heterogeneous Multi-task Learning for Human Pose Estimation with Deep Convolutional Neural Network, 链接 该篇论文是IJCV 2014的, 文章的核心multi-tasks的joint traning. 直接看图说话, 该论文的核心思想/步骤可以分为两个components: 1对图像里面的person进行detection, 以便裁剪出图像里面的人. 这个显然是必要的, 尤其是图像大而p

在自遮挡下的单目图像3D姿态估计 Monocular Image 3D Human Pose Estimation under Self-Occlusion (ICCV 13)

Monocular Image 3D Human Pose Estimationunder Self-Occlusion (ICCV 13) 在自遮挡下的单目图像3D姿态估计 摘要:文中提出在单张图片中3D姿态自动重建的方法.人体关节.易产生幻觉的身体部位的存在,杂乱的背景,都将导致人体姿态判断的歧义性,这都说明这不是一个简单的问题.研究者研究了许多基于运动和阴影的方法,为了减小歧义性,并对3D姿态进行重建.我们算法的关键思想就是增加运动和方向限制.前一个是在3D模型映射到输入图像时增加的限制,

human pose estimation

2D Pose estimation主要面临的困难:遮挡.复杂背景.光照.真实世界的复杂姿态.人的尺度不一.拍摄角度不固定等. 单人姿态估计 传统方法:基于Pictorial Structures, DPM ? 基于深度学习的算法包括直接回归坐标(Deep Pose)和通过热力图回归坐标(CPM, Hourlgass) 目前单人姿态估计,主流算法是基于Hourlgass各种更改结构的算法. 多人姿态估计 二维图像姿态估计基于CNN的多人姿态估计方法,通常有2个思路(Bottom-Up Appro

paper 154:姿态估计(Hand Pose Estimation)相关总结

Awesome Works  !!!! Table of Contents Conference Papers 2017 ICCV 2017 CVPR 2017 Others 2016 ECCV 2016 CVPR 2016 Others 2015 ICCV 2015 CVPR 2015 Others 2014 CVPR 2014 Others & Before Journal Papers Theses Datasets Challenges Other Related Papers Eval

Pose Estimation

Human Pose Estimation for Real-World Crowded Scenarios https://arxiv.org/pdf/1907.06922.pdf CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark https://arxiv.org/pdf/1812.00324.pdf 原文地址:https://www.cnblogs.com/haiyang21/p/11734855

6D姿态估计从0单排——看论文的小鸡篇——Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects in Heavily Cluttered Scenes

这是linemod的第二篇,这一篇把训练从online learning 变成了 使用3D model, 并且对于检测结果用 3种方法: color.Pose.Depth来确保不会有false positive.感觉有种不忘初心的感觉(笑 基于linemod,是前一篇的改良 initial version of LINEMOD has some disadvantages. First, templates are learnede online, which is difficule to c

caffe openpose/Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields配置(转)

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 是CVPR2017的一篇论文,作者称是世界上第一个基于深度学习的实时多人二维姿态估计. 优酷演示地址:链接 前几天作者公布了windows下的代码,下面来说说如何配置: 英文配置地址可以参考作者的github:https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/doc/inst

caffe openpose/Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields配置(转)

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 是CVPR2017的一篇论文,作者称是世界上第一个基于深度学习的实时多人二维姿态估计. 优酷演示地址:链接 前几天作者公布了windows下的代码,下面来说说如何配置: 英文配置地址可以参考作者的github:https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/doc/inst

Learning Temporal Pose Estimation from Sparsely-Labeled Videos

facebook AI 出品 之前的关键点论文大多是在静态图片上进行关键点识别,作者的工作是在不完全标注的视频序列中识别关键点,方法是每k帧进行一次关键点标注,标注的帧和某帧未标注的帧进行特征的warping,进行预测标注帧的结果,利用标注帧的结果反向优化未标注帧的关键点结果. <摘要> 现在视频中的多人关键点识别需要密集标注,资金和劳动力消耗大.作者提出的 PoseWarper 网络利用训练视频每K帧一标注的稀疏标注来实现密集关键点的反向传播和估计.对于已标注的视频帧A和未标注的视频帧B,A