监控视频中对象跟踪问题,不少学者投入大量精力进行研究,已经产生各种不同的跟踪方法。对于跟踪方法,我们可以根据算法提取的视觉特征、定位跟踪目标的方法、算法同时跟踪目标的数量这几个方面进行分类叙述。以下就跟踪方法中的要点逐一进行说明。
跟踪对象的视觉特征
选择合适的视觉特征对于跟踪算法而言至关重要。通常选取的视觉特征可作为目标唯一描述,使得其在特征空间中显著可分。值得注意的是,特征的选取与目标的表示方法是紧密相关的。例如基于区域的目标模型中常用颜色直方图作为特征,而基于轮廓的算法则考察物体边缘特征。许多跟踪算法在实际应用中采用两种或多种联合特征。常见的视觉特征有:
颜色
物体的外观颜色主要由两个因素决定,一是发光体的光谱功率分布,二是物体表面的反射性能,在监控视频中大多由后者占主导地位。在图像处理中通常使用RGB(红,绿,蓝)颜色空间来表示数据,但RGB 空间中各维度高度相关,而且不能很好地代表人眼对颜色变化的感知,实际运用中也有采用HSV(色调,饱和度,亮度)、Luv 等空间表示颜色。
边缘
物体边界移动会引起图像像素的变化。与颜色特征相比,边缘特征对光照强度的改变更不敏感,因此跟踪目标边界的算法常使用边缘作为特征。例如Canny边缘检测子,因其简易的算法和较高的准确性而成为最常见的边缘特征之一。
光流
光流是一种位移向量的稠密场,用来表示区域内每个像素点的瞬时速度。在计算光流时利用了亮度约束,即在视频图像相邻帧中对应像素点的亮度是恒定不变的。光流法通常被应用在基于运动的目标分割和跟踪算法中。
局部特征描述子
从视频图像的局部区域中提取的特征点,其特征描述往往具有对光照、旋转或尺度的不变性,并具有较强的可分性。常见的特征有LBP特征、SIFT特征。
定位跟踪目标方法
在提取目标特征之后,跟踪算法需要根据一定规则在视频图像序列中定位目标,常见的方法有:
目标相似性度量
对相邻帧或滑窗时间段内的对象,计算两者之间的相似性并加以匹配,以此寻找对应的关联,其中欧式距离、巴氏距离、棋盘距离等度量方法应用较广。
目标搜索算法
视频图像中包含的信息中含有大量的冗余,若直接对整幅图像采用相似匹配,会浪费大量的计算资源。与之相应的解决方法是根据目标所在位置和运动状态,预测其可能出现的区域位置,后续的视频序列只在指定范围内搜索,其中既有预测目标在下一帧可能存在的位置,主要算法包括卡尔曼滤波和粒子滤波等;也有通过迭代收敛减小搜索范围的优化算法,主要算法包括均值漂移算法(MeanShift)和连续自适应均值漂移算法(CamShift)等。
概率跟踪方法
利用贝叶斯滤波理论,概率跟踪方法解决了视频跟踪领域中的状态估计问题。在这类算法中,通常用位置、速度、尺度或旋转角度描述目标状态,根据状态转移模型预测跟踪目标的后续状态,并通过实际的观测值对模型执行度和预测值进行修正。隐马尔科夫模型(Hidden Markov Model,HMM)常被运用于概率跟踪算法中。
跟踪算法关注目标数量
从算法关注的目标数量这一角度,可将现有的跟踪算法分为单目标和多目标两大类。单目标跟踪算法着眼于根据外观和运动线索估计目标的状态,常见的算法在上面已简要阐述。而多目标跟踪算法则是关注一帧图像内同时出现多个观察对象,需要与多个目标一一对应的问题。在多目标跟踪算法中,首要问题是解决视频中观测对象与目标之间的对应关系,即数据关联问题。数据关联与对象状态是相关的,一旦确定了视频中目标的对应关系,就可以运用滤波器算法估计目标的状态。
多目标跟踪算法可以由单目标跟踪算法直接扩展而来,该类算法初始化多个单目标跟踪子(Tracker)对各个目标进行跟踪,每检测到一个新的目标就初始化一个新的跟踪子。这类方法虽然可以利用较为成熟的单目标跟踪算法,但是其没有考虑各个目标之间的影响,一般的改进方法是引入在线学习机制,将其他目标作为负样本进行学习,从而避免两个目标交汇时发生ID 交换错误。还有一类多目标跟踪算法是将问题抽象为图论中的特定问题,如最大权值图等,该类算法首先需要进行目标检测,目标检测结果一般作为图中的顶点,各个目标之间运用一定的策略建立边,边的权值一般为目标间的相似度。相对于由单目标跟踪扩展而来的多目标跟踪算法,该类算法综合考虑全局信息,而且运用较为成熟的图论算法,具有完备的理论基础,实验结果也表明其达到了更好的多目标跟踪性能。
对于上述第二种类别的多目标跟踪算法,常见的框架如上图所示,这种方法一般称为基于检测的跟踪。