视频目标检测

TCNN 

  • 静态图像中目标检测(rcnn,fast rcnn, faster rcnn, yolo, ssd 等)
  • 上下文信息
    • 使用图像检测算法将视频帧当做独立的图像来处理并没有充分利用整个视频的上下文信息。虽然说视频中可能出现任意类别的目标,但对于单个视频片段,只会出现比较少的几个类别,而且这几个类别之间有共现关系(出现船只的视频段中可能会有鲸鱼,但基本不可能出现斑马)。所以,可以借助整个视频段上的检测结果进行统计分析:对所有检测窗口按得分排序,选出得分较高的类别,剩余那些得分较低的类别很可能是误检,需对其得分进行压制(如图2)。经过MCS处理后的检测结果中正确的类别靠前,错误的类别靠后,从而提升目标检测的精度。
  • 运动传播:将当前帧中的location和置信度信息传递给相邻帧,(光流向量)
    • 单帧检测结果存在很多漏检目标,而相邻帧图像检测结果中可能包含这些漏检目标。所以我们可以借助光流信息将当前帧的检测结果前向后向传播,经过MGP处理可以提高目标的召回率。如图1所示将T时刻的检测窗口分别向前向后传播,可以很好地填补T-1和T+1时刻的漏检目标。
  • 基于Tracking 重新计算得分   tublet 
      • 使用图像目标检测算法获取较好的检测结果;
      • 从中选取检测得分最高的目标作为跟踪的起始锚点;
      • 基于选取的锚点向前向后在整个视频片段上进行跟踪,生成跟踪轨迹;
      • 从剩余目标中选择得分最高的进行跟踪,需要注意的是如果此窗口在之前的跟踪轨迹中出现过,那么直接跳过,选择下一个目标进行跟踪;
      • 算法迭代执行,可以使用得分阈值作为终止条件。

      得到的跟踪轨迹既可以用来提高目标召回率,也可以作为长序列上下文信息对结果进行修正。

结合光流,实现特征图的帧间传播和复用。

Deep Feature Flow

  • 在关键帧进行特征图提取,比较耗时。所以间隔进行,非关键帧通过传播得到。

F 为两帧得到的光流信息,光流计算较慢,所以在(deep learning for video saliency detection)中直接将两帧图像送入网络学习时域信息,而不是计算光流信息。

  • 光流网络(flownet)预测相邻帧和该帧之间的motions

t 帧得到的光流特征不明显,而t+10, t-10 的明显,用motion-guided spatial warping预测帧之间的motion,将这些特征融合。将融合后的feature map fed to detection network得到最后的检测结果

tracking---TLD

tracking learning detection:TLD是对视频中未知物体长时间跟踪的算法。

TLD算法主要由三个模块构成:追踪器(tracker),检测器(detector)和机器学习(learning)

常用的方法有两种,一是使用追踪器根据物体在上一帧的位置预测它在下一帧的位置,但这样会积累误差,而且一旦物体在图像中消失,追踪器就会永久失效,即使物体再出现也无法完成追踪;另一种方法是使用检测器,对每一帧单独处理检测物体的位置,但这又需要提前对检测器离线训练,只能用来追踪事先已知的物体。

        追踪器的作用是跟踪连续帧间的运动,当物体始终可见时跟踪器才会有效。追踪器根据物体在前一帧已知的位置估计在当前帧的位置,这样就会产生一条物体运动的轨迹,从这条轨迹可以为学习模块产生正样本(Tracking->Learning)。
        检测器的作用是估计追踪器的误差,如果误差很大就改正追踪器的结果。检测器对每一帧图像都做全面的扫描,找到与目标物体相似的所有外观的位置,从检测产生的结果中产生正样本和负样本,交给学习模块(Detection->Learning)。算法从所有正样本中选出一个最可信的位置作为这一帧TLD的输出结果,然后用这个结果更新追踪器的起始位置(Detection->Tracking)。
        学习模块根据追踪器和检测器产生的正负样本,迭代训练分类器,改善检测器的精度(Learning->Detection)。

光流法:

梯度下降的优化方法,空间运动物体在观察成像平面上的像素运动的瞬时速度。是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。

其计算方法可以分为三类:

(1)基于区域或者基于特征的匹配方法;

(2)基于频域的方法;

(3)基于梯度的方法;

光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”。

时间: 2024-10-10 04:57:41

视频目标检测的相关文章

AI佳作解读系列(五) - 目标检测二十年技术综述

计算机视觉中的目标检测,因其在真实世界的大量应用需求,比如自动驾驶.视频监控.机器人视觉等,而被研究学者广泛关注. 上周四,arXiv新出一篇目标检测文献<Object Detection in 20 Years: A Survey>,其对该领域20年来出现的技术进行了综述,这是一篇投向PAMI的论文,作者们review了400+篇论文,总结了目标检测发展的里程碑算法和state-of-the-art,并且难能可贵的对算法流程各个技术模块的演进也进行了说明,还深入到目标检测的特定领域,如人脸检

我收集的一些目标检测、跟踪、识别标准测试视频集和图像数据库

一个网友收集的运动目标检测,阴影检测的标准测试视频 http://blog.csdn.net/sunbaigui/article/details/6363390 很权威的change detection检测视频集,里面有将近20种主流算法在这个测试集上的运行结果和ROC,PRA曲线 http://changedetection.net/ VIVID Tracking Evaluation Web Site http://vision.cse.psu.edu/data/vividEval/data

基于深度学习的目标检测研究进展

前言 开始本文内容之前,我们先来看一下上边左侧的这张图,从图中你看到了什么物体?他们在什么位置?这还不简单,图中有一个猫和一个人,具体的位置就是上图右侧图像两个边框(bounding-box)所在的位置.其实刚刚的这个过程就是目标检测,目标检测就是"给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别". 目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在

机器视觉中的目标检测

今天撇去不同目标追踪算法的框架,比如KCF.TLD.Mean Shift等,忽略它们繁琐的公式,看了对目标检测的基本理解.这里做一个简单的总结,目标检测的框架一般是下图这样的: 目标检测分为以下几个步骤: 1. 训练分类器所需样本的创建 训练样本一般包括正样本和负样本,正样本是指第一帧图中框定的待检测的目标,负样本是指其它不包含目标的任意图片(比如背景),所有的样本图片都被归一化同样的尺寸大小(比如20C20). 2. 特征提取 我们一般通过图像.视频或者波形获得的数据量是很巨大的,比如一个简单

常见的目标检测中的背景建模方法

Author: JW. ZHOU 2014/6/13 最近一直在做前景检测方面的研究,刚开始主要是做一些工程性的应用,为了解决工程方面的问题,下了不少功夫,也看了不少最近国内外的文章.一直想做个总结,拖着拖着,终究却写成这篇极不成功的总结. 背景建模或前景检测的算法主要有: 1. Single Gaussian (单高斯模型) Real-time tracking of the human body 2. 混合高斯模型(Mixture of Gaussian Model) An improved

openCV目标检测学习笔记(一)

最近在研究一些基于openCV的目标检测算法,由浅入深,今天是第一天. 首先网上下载了一份较简单的来对视频中运动物体进行二值显示的代码进行学习,以下是我的理解,初学者会犯一些错希望大家予以指正. #include<cv.h>#include "cxcore.h"#include<highgui.h> int main(int argc,unsigned char* argv[]) { CvCapture* capture = cvCreateFileCaptur

前景目标检测1(总结)

运动前景对象检测一直是国内外视觉监控领域研究的难点和热点之一,其目的是从序列图像中将变化区域从背景图像中提取出来,运动前景对象的有效检测对于对象跟踪.目标分类.行为理解等后期处理至关重要,那么区分前景对象,非常关键的一个问题是确定一个非常合适的背景,背景从象素的角度来理解,每一个象素就是有可能是前景点,也有可能是背景点,那么我们就要防止背景中误进入原属于前景点的对象,目前有几种常用的方法,但分别有利弊. 主要可以分为:背景建模,帧差法,光流法 1: Single Gaussian(单高斯模型)

目标检测与跟踪的研究热点以及发展趋势

目标检测与跟踪的研究热点以及发展趋势: 1) 场景信息与目标状态的融合 场景信息包含了丰富的环境上下文信息, 对场景信息进行分析及充分利用, 能够有效地获取场景的先验知识, 降低复杂的背景环境以及场景中与目标相似的物体的干扰; 同样地, 对目标的准确描述有助于提升检测与跟踪算法的准确性与鲁棒性. 总之,尝试研究结合背景信息和前景目标信息的分析方法,融合场景信息与目标状态, 将有助于提高算法的实用性能. 2) 多维度. 多层级信息融合 为了提高对运动目标表观描述的准确度与可信性, 现有的检测与跟踪

CS231n第八课:目标检测定位学习记录

结合视频第八集和笔记:http://chuansong.me/n/353443351445 本节课程从分类(Classification),定位(Localization)和检测(Detection)三个方面入手. 从上图可以直观的看到: 1.对于分类而言,就是对于给定的图片把其划分到给定的几种类别中某一种.很显然,图像中只能存在一种给定类别中的对象. 2.而定位就是找到对应的对象的位置区域,把它框选出来(即Bounding Box),这个选框除了位置信息(x,y)外还要包含其大小信息(w,h)