多目标跟踪 综述(二)

多目标跟踪 综述(二)

Multi-object tracking

multi-target tracking

MOT Components

前面介绍了什么是MTT问题,MTT问题面临的难点,以及MTT的一般形式化表达和方法的分类。这里主要介绍下一般的MTT方法都包含哪些component,以保证提出模型考虑问题更加全面。

一般MTT方法都会包含个components,分别是Appearance Model,Motion Model,Interaction Model, Exclusion Model 和Occlusion Model。

Appearance Model

即表观模型,这里既包含目标的视觉表示,也包括目标间相似性、相异性的度量。

视觉表示肯定是基于图像特征了。这里先介绍一些特征。

  • point feature, 比如Harris角点、SIFT角点、SURF角点等等
  • Color/intensity features, 比如最简单的模板、颜色直方图等
  • Optical flow, 光流特征蕴含了时域信息
  • Gradient/pixel-comparison features, 基于梯度的特征,典型的如HOG特征
  • Region covariance matrix features, 该特征对于光照和尺度变换相对鲁棒
  • Depth, 即深度信息,对于视频这种3D数据作用还是蛮大的
  • others,针对于具体应用的特征,比如对于行人的步态特征等

总之呢,每个特征都不是万能的,有优点也有缺点,比如Color histogram简单,容易计算相似性,但其仅仅是统计信息,丢失了区域像素的位置信息。 Points features对于平面内变换非常有效,但对于遮挡和out-of-plane变化就无能无力了。 HOG等梯度特征显然对光照比较鲁棒,但对于遮挡和形变效果很差,Region covariance matrix鉴别能力很强,但计算太复杂。 Depth则很难获得精确值。

接下来介绍一些目标表示方法

像素模板表示

这是最基本的方法,直接使用目标所在区域的像素矩阵表示目标。目标间的相似度使用归一化交叉相关系数的函数表征(NCC,Normalized Cross Correlation)。比如已知目标的模板表示,则候选目标与源目标的相似度可以定义为。采用模板匹配的方法进行跟踪时,一般每一帧都要更新模板,简单易行,但显然这种方法对于遮挡、光照等问题比较敏感。

颜色直方图表示

由于颜色直方图能够很方便的获得目标区域的统计信息,颜色直方图被广泛采用。 颜色直方图之间的相似性或者相异性一般和

直方图的巴氏系数有关(Bhattacharyya coefficient)。

比如我们前面介绍的基于人体部件的行人跟踪方法中,两个tracklets的相似度定义为

其中表示巴氏系数,表示颜色直方图。

再比如zhang[1]中,假设已知目标的颜色直方图,则目标之间的相似度刻画为

其中表示巴氏距离,分别表示目标相似性和相异性的高斯分布的均值和方差,这可以由训练集获得。

但是颜色直方图丢失了空间信息。

协方差矩阵表示

(这个我也是不大明白,这里粗略的介绍下,后面搞明白了再补)

Henriques等2011年的一篇文章[2]中使用协方差矩阵表示目标的表观,其光照、旋转等具有较好的鲁棒性。

目标之间匹配可能性定义如下

高斯分布的参数由训练集得到。

(待补)

其他

还有一些其他方法,比如基于梯度的表示方法和词袋表示方法等。

上面介绍的一些表示方法都存在不同的优缺点,因此可以把他们结合起来利用。结合方式包含以下几种

  • Boosting

    比如real adaboost方法去筛选出一些鉴别能力较强的特征

  • Concatenating

    比如将HoG,颜色直方图,光流等特征串联起来,然后再使用PCA进行降维,得到目标表示。目标之间相似度可以定义为,是在线获得的协方差矩阵

  • Summation

    这个是指不同表示获得的相似度进行加权求和。比如

  • Product

    这个主要是从概率的乘法公式考虑。比如目标的某个潜在匹配颜色直方图、形状、词袋表示为的概率为,假设这些特征是独立的,那么

  • Cascading

    这个是只采用级联的方式判断目标间的相似度,如果一种表示认为目标间匹配再继续使用下一种表示判断,出现不匹配的判断则停止,认为不匹配,知道所有的表示都判断完。

Motion Model

该成分主要考虑时域上的运动特性,比如速度的渐变等。

该模型主要采用的方式有两种:匀变速模型和变速模型

匀变速模型

顾名思义,该模型认为速度除了噪声干扰,应该是保持均匀变化的,比如加速度为0。

这个应用很多,比如前面文章(MTT)连续能量函数最小化方法中使用全局速度累积变化来约束速度变化, 再比如之前基于层次关联的鲁棒多目标跟踪中使用速度刻画tracklets相连的概率

如下图

1477881408294.jpg

上面两个模型仅考虑时间上tracklets的速度关系,还有方法考虑到空间中相邻tracklets的关系,比如tracklets近邻对,如果已经知道相匹配,计算匹配的可能性。可以首先将的起始时间对齐,然后计算在时刻预测的两个目标距离与响应间距离的差异,其中上标表示end,其距离差异可以认为服从高斯分布,所以如果距离越小,也就表示 匹配的可能性越大。

1477882424111.jpg

除了加速度为0,还可以考虑加速度非零情况,比如

Note。 对于这个表示我个人觉得并不合适,因为第二项速度的分布和第三项加速的的分布并不是独立的。

非匀变速模型

有些获取的视频并不能保证每帧之间的速度是渐变的,比如低帧高速运动的物体中速度突然发生改变,那么显然匀变速假设就不合理了,所以也有非匀变速模型的提出。

Yang[3]中使用了一些tracklets集合作为速度变化较大的tracklets之间的衔接部件,比如下图中显然按照匀变速模型的处理方式,判断他们匹配的概率很小,然后使用衔接集合中的的头节点和的尾节点匹配度较高,的尾节点和的头节点匹配度较高,那么就可以认为构成一个较长的tracklet.

1477895392324.jpg

Interaction Model

同一运动场景中的目标,往往运动轨迹会相互影响,比如晨跑中跑步的人往往倾向于扎堆,但又保持距离,随着跑步过程,相距很近的人慢慢的节奏就调整一致等等。 interaction Model包括两种典型的模型: social force model和crowd motion pattern model

social force model

该模型认为每个个体受到两部分作用:自身作用和外部作用

自身作用:1. fidelity,首先目标的目的地不会发生改变;2. constancy,其次个体的速度一般不会发生跳变,包括大小和方向

环境作用:1. attraction,首先同一类的个体往往距离很近;2. repulsion,其次每个目标都会有相应的舒适距离,不能太近;3. coherence,靠近的目标往往速度会比较相近。

介绍几个模型:

Pellegrini(2009)[4]模型中考虑了fidelity,constancy和repulsion.

repulsion,假设目标表示为表示位置和速度,表示之间的最小舒适距离,对应舒适距离的能量项为,这个能量项形式可以很多,然后目标和附近所有目标舒适距离的约束为,其中表示权重。

fidelity,,其中表示目标i的目的地位置

constancy,,这里是预估的目标i的均匀速度

所以最终interaction model为:

通过这个模型的优化,能够有效减小待匹配空间的大小,使数据关联的复杂度得到下降。

Yamaguchi (2011)[5]除了类似与Pellegrini(2009)模型中的repulsion和constancy外还考虑了其他四个方面。

那个目标表示为,分别是位置、速度、预估速度、目的地、所在group

速度:速度是渐变的,速度应该近似与预估速度

attraction,

其中第一项相当于刻画同一组内速度的余弦距离,第二项相当于计算同一组目标相对位置和速度的余弦,文中没有说v是什么速度,我有点困惑这里,为什么要计算第二项。。。。。。

Scovanner(2009)[6]提出的模型中包含了4个部件。约束目标不要在space内大幅跳变,约束速度不变,保证目的地不变,约束目标之间的关系repulsion。

crowd motion pattern models

该模型一般适用于过拥挤的环境,这中情况下,目标往往非常集中以至目标太小,表观等特征根本起不到作用,这时候就场景中特有的运动模识就起到了关键作用了。

Ali(2008)[6]认为目标的行为往往收到周围环境的影响,包括场景结构和目标周围物体等。所以他们认为目标收到三个方面的作用。

Static Floor Fields (SFF),主要考虑的是scene structure,包括出现最多的路径区域和出口信息等。

Boundary Floor Field (BFF),主要考虑可能对目标产生遮挡的部分

Dynamic Floor Field (DFF),主要刻画目标周围其他目标的总的运动趋势

然后三个部分进行加权综合考虑

Zhao(2012)[7]使用ND tensor voting的方法获得所有目标运动模式,然后使用这些模式进行预测位置和速度等

还有一些其他模型这里不再介绍。

Exclusion Model

这部分主要是指1。一个目标只能出现在一条轨迹上;2. 一条轨迹只能对应一个目标,就是说多个目标不能出现在同一段轨迹上

Occlusion Handling

遮挡问题是多目标跟踪中的难点。处理遮挡问题的方法包括

  1. Part-to-whole,即将目标分解成若干个部件,当目标被部分遮挡时,还可以通过部件的匹配来推测整体目标的匹配
  2. Hypothesize-and-test,假设检验的方法根据观测值去估计目标在其他未被检测区域是因为遮挡导致的概率,可以说是一种MAP方法
  3. Detection-of-occlusion, 有些学者通过直接对遮挡的样本进行训练,然后使用分类器去检测并判断遮挡区域
  4. Buffer-and-recover,这种策略当目标在下一帧中没找到匹配时,记下最后检测到的目标s,先把目标缓存起来,然后继续进行之后帧的匹配,如果在T帧内找到匹配的目标,那么就将连接起来,认为中间都被遮挡了,否则则认为轨迹在处已经终止。
  5. others,比如实际应用中也会根据相机位置和区域中心坐标来判断谁被遮挡了,有时这些策略也会联合使用。

多目标跟踪的评价指标

这个参见多目标跟踪的评价指标



下一篇,我们介绍下常用的数据集和已经存在的公布代码的方法。


  1. Zhang L, Li Y, Nevatia R (2008) Global data association for multi-object tracking using network flows. CVPR, 1-8 ?
  2. Henriques JF, Caseiro R, Batista J(2011) Globally optimal solution to multi-objecy tracking with merged measurements, ICCV,2470-2477 ?
  3. Yang B, Nevatia R(2012a) Multi-target tracking by online learning of non-linear motion patterns and robust appearance models. ICCV, 1918-1925 ?
  4. Pellegrini S, Ess A, Schindler K, Van Gool L(2009) YOu‘ll never walk alone: Modeling social behavior for multi-target tracking. ICCV, 261-268. ?
  5. Yamaguchi K, Berg AC, Ortiz LE, Berg TL(2011) who are you with and where are you going? CVPR, 1345-1352 ?
  6. Ali S, Shah M(2008) Floor field for tracking in high density crowd scenes. ECCV,1-14 ? ?
  7. Zhao X, Gong D, Medioni G(2012) Tracking using motion patterns for very crowed scenes. ECCV, 315-328 ?
时间: 2024-10-12 15:39:36

多目标跟踪 综述(二)的相关文章

多目标跟踪 综述(三)

多目标跟踪 综述(三) multi-target tracking Multi-object tracking Codes Data set 多目标跟踪常用的数据集: 1477969643722.jpg 公开代码的方法: 1477969661474.jpg 还是公用的数据集比较好,这样可以直接对比别人的实验结果,不用自己重复实验了. Future directions MOT with video adaptation. 大多数基于检测的MOT方法,往往适用范围依赖于离线学习获得的检测器,所以找

文献综述二十:基于UML技术的客户关系管理系统实现

一.基本信息 标题:基于UML技术的客户关系管理系统实现 时间:2015 出版源:电子设计工程 文件分类:uml技术的研究 二.研究背景 设计出可应用与银行和储户之间沟通的客户关系管理系统,从而实现对客户管理的信息化 ,提升了企业对客户维护的能力. 三.具体内容 文献的主要内容分为五个部分.基于UML建模技术的系统用例分析.系统功能设计.客户关系管理系统结构设计.系统开发工具.系统功能流程设计与实现代码. 基于UML建模技术的系统用例分析:包括银行客户经理系统用例图和管理员的用例分析.银行客户经

异常处理与MiniDump详解(4) MiniDump

http://blog.csdn.net/vagrxie/article/details/4398721 异常处理与MiniDump详解(4) MiniDump 分类:             [Windows]              2009-07-31 23:18     23631人阅读     评论(12)     收藏     举报 exceptionpointersmicrosoftfunwindowsnull 目录(?)[+] 一   综述 二   基本应用 怎么感知到程序的崩

深入浅出UE4网络

UE4中的官方文档结构比较混乱,且有部分错误,不方便学习.笔者试图通过本文,整理出一篇关于UE4网络的文章,方便朋友们对UE4中的网络同步部分的认识,并有进一步理解.如有讲得不清楚明白的地方,还望批评指正. 本文的结构如下: 一.UE4网络综述 二.UE4中的几种同步方式 1.Actor Replication 2.Property Replication(RepNotify与Replicated Using的区别) 3.Function Call Replication 4.Actor Com

论文阅读:A Critical Review of Recurrent Neural Networks for Sequence Learning

作者: Zachary C. Lipton UCSD 一.论文所解决的问题 现有的关于RNN这一类网络的综述太少了,并且论文之间的符号并不统一,本文就是为了RNN而作的综述 二.论文的内容 (0)整体一览 由前馈神经网络->RNN的早期历史以及发展->现代RNN的结构->现代RNN的应用 (1)前馈神经网络 图1 一个神经元 图2 一个神经网络 传统的前馈神经网络虽然能够进行分类和回归,但是这些都是假设数据之间是iid(独立同分布的),因为无法胜任那些数据之间是依赖的序列问题. 如图3中

线段树详解 (原理,实现与应用)

线段树详解 By 岩之痕 目录: 一:综述 二:原理 三:递归实现 四:非递归原理 五:非递归实现 六:线段树解题模型 七:扫描线 八:可持久化 (主席树) 九:练习题 一:综述 假设有编号从1到n的n个点,每个点都存了一些信息,用[L,R]表示下标从L到R的这些点. 线段树的用处就是,对编号连续的一些点进行修改或者统计操作,修改和统计的复杂度都是O(log2(n)). 线段树的原理,就是,将[1,n]分解成若干特定的子区间(数量不超过4*n),然后,将每个区间[L,R]都分解为 少量特定的子区

Linux性能调优的优化思路

Linux操作系统是一个开源产品,也是一个开源软件的实践和应用平台,在这个平台下有无数的开源软件支撑,我们常见的有apache.tomcat.nginx.mysql.php等等,开源软件的最大理念就是自由.开放,那么Linux作为一个开源平台,最终要实现的是通过这些开源软件的支持,以低廉的成本,达到应用最有的性能.因此,谈到性能问题,主要实现的是Linux系统和应用程序的最佳结合. 博文大纲:一.性能问题综述二.影响Linux性能的因素三.分析系统性能设计的人员四.调优总结 一.性能问题综述 系

Map 综述(二):彻头彻尾理解 LinkedHashMap

摘要: HashMap和LinkedList合二为一即是LinkedHashMap.所谓LinkedHashMap,其落脚点在HashMap,因此更准确地说,它是一个将所有Entry节点链入一个双向链表LinkedList的HashMap.由于LinkedHashMap是HashMap的子类,所以LinkedHashMap自然会拥有HashMap的所有特性.比如,LinkedHashMap的元素存取过程基本与HashMap基本类似,只是在细节实现上稍有不同.当然,这是由LinkedHashMap

二值法方法综述及matlab程序

在某些图像处理当中一个关键步是二值法,二值化一方面能够去除冗余信息,另一方面也会使有效信息丢失.所以有效的二值化算法是后续的处理的基础.比如对于想要最大限度的保留下面图的中文字,以便后续的定位处理. 二值化算法包括全局二值化和局部二值化, 全局二值化具有速度快但效果相对差的特点, 局部二值化算法具有速度慢效果好的特点. 原图 全局阈值              方法一:直接采用im2bw ;手动阈值 方法二:迭代法求阈值 迭代式阈值选取的基本思路是:首先根据图像中物体的灰度分布情况,选取一个近似