由于课程作业,总结下近期国内关于行人检测的文献,虽然是2013 2014年写的,但是综述的内容还都是经典的东西。作为浏览回顾就行。
许腾,黄铁军,田永鸿 . 车载视觉系统中的行人检测技术综述[J]. 中国图象图形学报,2013,18( 4) : 359 -367.
本文对 2005 年以来该技术中最重要的两个环节———感兴趣区域分割以及目标识别的研究现状进行综述。
1 ROIs ( regions of interest) 分隔
ROIs的分隔方法主要有这五类:1. 基于运动 2. 基于立体视觉 3. 基于图像特征 4. 基于雷达 5基于规则,如下表
2 目标识别
主要总结了2005-2012年间目标识别方法
2.1 特征提取
2.1.1 对原有特征的改进
原文中对原有特征的改进主要讲了对hog的改进,hog看下文
http://blog.csdn.net/liulina603/article/details/8291093
有人将其中的块大小可变,有人使用积分图 (http://blog.csdn.net/bea_tree/article/details/51106359#t19),有人取消了cell,有人构造图像金字塔,还有人利用gpu进行加速计算。
2.1.2 新特征
主要集中在利用局部梯度、轮廓、纹理信息以及多种底层特征组合方面。
例如共生梯度方向直方图特征( CoHOG)、二阶梯度方向直方图、Edgelet 、自适应的轮廓特征( ACF) 、积分通道特征( integral channel features) 、 CSS( 颜色通道自相似) 、中心对称的金字塔 LBP
2.1.3 非可视光谱数据上的使用
主要就是对原有特征转变为在红外线、立体视觉或者其他非可视光谱
2.2 分类器构造
主要是对svm和boosting的改造
Maji 等人提出了直方图交叉核( HIK)的一种近似算法,Felzenszwalb 等人利用形变部件模型( DPM) 方法检测人体、汽车等对象。
Kim 等人提出使用多分类器 Boosting 算法。lin等人基于多实例学习( MIL) 的 Boosting 框架。Babenko 利用多姿态学习( MPL) 的方式对训练样本自动按照姿态进行分类。
2.3 搜索框架
滑动窗口在目前的搜索框架中十分流行采用非极大抑制( NMS) 或MeanShift 的方法进行合并,从而得到检测结果。研究者借鉴了在对象分类中十分流行的“词袋”( BOW) 模型,在图像中进行全局最优搜索。目前此类算法主要有隐式形状模型( ISM) 和高效子窗口搜索法( ESS) 。
3作者展望
- 立体视觉
- 多传感器
- 新数据集
- 自动结合上下文
张春凤,宋加涛,王万良 . 行人检测技术研究综述[J]. 电视技术,2014,38( 3) .
这篇文章主要介绍了各种行人检测的方法,总体将其分为基于全局特征、基于局部特征和基于立体视觉的方法。另外文章总结了目前的几种数据库
1 行人检测方法
1.1 基于全局特征
首先附上关于HOG haar 和lbp三种特征比较好的文章 http://www.open-open.com/lib/view/open1440832074794.html
1.1.1 haar
Papageorgiou 和 Poggio最早提出 Harr 小波的概念;Viola 等引进了积分图的概念,加快了 Harr 特征的提取速度,并将该方法应用于行人检测,结合人体的运动和外观模式构建行人检测系统,取得了较好的检测效果,为行人检测技术的发展奠定了基础。
1.1.2 hog
Dalal 和 Triggs在 2005 年提出梯度方向直方图( Histogram of Oriented Gradients,HOG) 的概念,并将其用于行人检测, 在包含视角、光照和背景等变化的 INRIA 行人数据库上,也取得了大约 90%的检测成功率。HOG
是目前使用最为广泛的行人特征描述子。Zhu 等人提出积分直方图的概念,加速了 HOG 特征的计算,Qu 等人提出无背景情况下的 HOG 特征的概念,既消除了通常情况下背景因素对目标 HOG 特征的影响,又加速了 HOG 特征提取的速度; Wang 等人将 HOG特征与局部二值模式( Local Binary Pattern,LBP) 相结合,用于存在部分遮挡情况下的行人检测,使用线性支持向量机( Linear Support Vector Machine,SVM) 作为分类器,在INRIA 行人库上取得了 97% 的检测率,但是它的高运算复杂度也限制了实时应用。
1.1.3 edgelet
B. Wu 等人提出了“小边”( Edgelet) 特征的概念,即一些短的直线或者曲线片段,并将其应用于复杂场景的单幅图像的行人检测,在CAVIAR 数据库上取得了大约92%的检测率。缺点是由于每个 Edgelet 特征需要手动标定,所以比较耗时费力,而且对于一些本身较复杂的曲线,很难通过手工标定的方法来得到完全符合人体曲线的“小边”特征。
1.1.4 Shapelet
针对上述 Edgelet 特征存在的缺点,Sabzmeydani在2007 年提出了一种可以利用机器学习的方法自动得到的特征,即 Shapelet 特征。该算法首先从训练样本提取图片不同方向的梯度信息,然后利用 AdaBoost 算法进行训练,从而得到 Shapelet 特征。Yao 等利用 Shapelet特征训练得到一个全身检测器,该算法优于基于 Haar -like 特征的部分检测器; 他们进一步将上述两种检测器相结合构成一个行人检测系统,在 INRIA 数据集上取得了95% 的行人检率,检测效果优于单独使用其中任何一个检测器的情况。
1.1.5 基于轮廓模板的方法
在这个系列第一篇文章中就提到了这种方法,其需要大量的模板,标记较为繁琐。
1.1.6 基于运动特征的方法
其中较具代表性的算法包括:
1) Viola 等人针对摄像机静止的情况提出在不同图像上计算 Haar - like 特征,然后将运动信息与图像的灰度信息相结合构建行人检测系统。且适用于雨雪天气等恶劣气候条件下低分辨率场景的行人检测,但对于行人被遮挡的情况检测效果较差;
2) Dalal等针对摄像机运动的情况,提出将基于外观的梯度描述子和基于运动的差分光流描述子相结合来构建行人检测器,但该方法只对单个窗口的检测比较有效,对于整幅图像检测效果则很差。
1.2 基于局部特征
该类方法的基本思想是把人体分成几个组成部分,然后对图像中每部分分别检测,最后将检测结果按照一定的约束关系进行整合,最终判断是否存在行人。目前已有一些较有效的算法: Mohan 等将人体分为头肩部、腿部以及左手臂和右手臂4 个部分,然后使用 Harr 小波特征训练 SVM 检测器。Mikolajczyk 等将人体分成正面的人脸/头部、侧面的人脸/头部、正面和背面的头肩
部、侧面的头肩部以及腿部,然后对每个部分采用 SIFT( Scale - Invariant Feature Transform) 特征进行描述,Vinay D. Shet等提出了一种基于双网格逻辑推理的行人检测方法,将人体分为头、上身和腿部三个部分,在 USC 数据库上获得了92%左右的检测成功率,对存在不同程度遮挡的行人检测率也达到了 90% 以上。该类方法的优点是:1) 降低了人体某一部分被遮挡时对行人检测结果的影响;2) 对人体各部分分而治之的思想,降低了整体检测的难度而且各个部分之间的几何约束关系也对最终检测的精度有很大的帮助。
1.3 基于立体视觉的方法
该类方法是指通过 2 个或 2 个以上的摄像机进行图像采集,然后分析图像中目标的三维信息以识别出行人。可以利用三维信息估计路面参数用来筛选出感兴趣区域( ROI) ,并利于这些信息对所获得区域进行分类,构建了一个检测率较高的行人检测系统。也可以对左右视角的多个图像进行 ROI 提取,并其用于模式分类,降低了目标检测的误报率。也可以利用车载立体摄像机,将图像亮度信息和三维密集立体信息相结合,构建了一个直立行人检测系统。该类方法的优点是充分利用场景中目标图像的深度信息进行行人区域的分割,速度较快。
2 数据库总结
1) MIT 行人数据库是较早公开的行人数据库,太简单。
2) INRIA 行人数据库是目前使用较多的静态行人数据库更加符合实际场景。
3) Daimer 行人数据库的图像来源于车载摄像机,图片均是灰度图像。测试集是一段大约27 min的视频,其中包含完整的以及被部分遮挡的行人。
4) Caltech 行人数据库是目前规模较大的行人数据库,库中的图像来源于车载摄像机,与现实生活中图像的实际遮挡频率一致,其中包含质量不太好的图像。
5) TUD 行人数据库提供图像对以便计算光流信息,该数据库主要用于评估运动信息在行人检测中的作用,常用于行人检测及跟踪研究中。
6) NICTA 行人数据库是目前规模较大的静态图像行人数据库,包含25 551 张单人的图像和5 207 张高分辨率非行人图像,但不包含运动信息,已经划分训练集和测试集。
7) ETH 行人数据库是基于双目视觉的行人数据库,采用一对车载摄像头拍摄获得,给出了标定信息和行人标注信息,同时采用置信度传播方法获取深度信息。
8) CVC 行人数据库目前包含 3 个数据集该数据库主要用于车辆辅助驾驶中的行人检测研究。
9) USC 行人数据库的图像大部分来源于监控视频,是一个比较小的行人数据库,该数据库主要用于存在遮挡和多视角情况下的行人检测研究。