OpenCV中Adaboost训练的经验总结

以OpenCV训练级联Adaboost为例进行说明

numPos: 12000

numNeg: 120000

numStages: 15

precalcValBufSize[Mb] : 1000

precalcIdxBufSize[Mb] : 800

stageType: BOOST

featureType: HOG

sampleWidth: 40

sampleHeight: 40

boostType: DAB

minHitRate: 0.999

maxFalseAlarmRate: 0.7

weightTrimRate: 0.95

maxDepth: 1

maxWeakCount: 150

===== TRAINING 0-stage =====

<BEGIN

POS count : consumed   12000 : 12000

NEG count : acceptanceRatio    120000 : 1

+----+---------+---------+

|  14| 0.999083| 0.684617|

+----+---------+---------+

===== TRAINING 1-stage =====

<BEGIN

POS count : consumed   12000 : 12011

NEG count : acceptanceRatio    120000 : 0.688808

+----+---------+---------+

|  24| 0.999083| 0.695967|

+----+---------+---------+

===== TRAINING 2-stage =====

<BEGIN

POS count : consumed   12000 : 12022

NEG count : acceptanceRatio    120000 : 0.470459

+----+---------+---------+

|  35| 0.999083|  0.68575|

+----+---------+---------+

===== TRAINING 3-stage =====

<BEGIN

POS count : consumed   12000 : 12033

NEG count : acceptanceRatio    120000 : 0.544413

+----+---------+---------+

|  59| 0.999083|   0.6992|

+----+---------+---------+

===== TRAINING 4-stage =====

<BEGIN

POS count : consumed   12000 : 12044

NEG count : acceptanceRatio    120000 : 0.377264

+----+---------+---------+

| 103| 0.999083| 0.671933|

+----+---------+---------+

1 正负样本比例问题:1:4或者1:5训练出来的分类器要优于1:1或者1:10

正负样本比例接近的时候1:1,对负样本的看中程度很低,在实际的生活中负样本肯定远远多于正样本

正负样本比例较大的时候1:10,对负样本多于看中而忽略了正样本的统计特性,造成正样本权重总和很小,当权重小于一定程度的时候可能很大一部分正样本都不参与训练了(在weightTrimRate=0.95时),那么假设没有正样本参与训练了,只有负样本参与后续训练,训练出来的分类器会是什么样子的呢?

不管是目标检测问题与单纯数据分类问题我们都不可以专门针对负样本进行训练,这样的训练是无意义的

因此我们只能尽可能保证不过分看中负样本的情况下尽量增加负样本的个数,对于正样本的个数,比如人脸检测至少需要上万或者几十万的正样本吧,这个没有较好的结论,如果有人知道OpenCV公开的haarcascade_frontalface_alt.xml的参数请指教一下。

2 minHitRate:影响每个强分类器阈值,当设置为0.95时如果正训练样本个数为10000个,那么其中的500个就很可能背叛别为负样本,第二次选择的时候必须多选择后面的500个,按照这种规律我们为后面的每级多增加numPos*minHitRate个正样本,根据训练的级数可以得到如下公式

numPos+(numStages-1)*numPos*(1-minHitRate)《=准备的训练样本

以上式子也只是根据训练级数和准备的正样本总和设置一个参与训练的正样本个数,只能作为估算,小于计算出来的数可能没有问题,但是大于那个数肯定有问题

现在解释下”可能有问题“是如何理解的:因为我们总是默认每次添加固定个数的正训练样本,但是有时候后面的固定个数的正训练样本中也可能存在不满足条件的样本,这些样本跟我们排除的样本类似,所以比如我们打算添加500个样本就够了,但是实际需要添加600个,这时候就出现问题了。

从上面例子的结果中可以看出,每级我们允许丢掉12000*0.001个正样本=12,需要注意的是万一第11个或者第10个跟第12个的阈值是一样的,那么我们之丢掉了前面的10个或者9个而已,因此每次增加的个数可能要小于12个,大于12个的情况就是上面所说的”可能有问题“

3 maxFalseAlarm:影响每个强分类器中弱分类器的个数,设置较大,每级可以滤除负样本的比例就较小,这样在测试过程中虚警率就较高;设置较小,每级强分类器中弱分类器的个数就较多,检测时间就会相对要长,在可以接受的检测时间下尽量降低maxFalseAlarm是我们要追求的目标

关于负样本的选择,因为每级剩下的负样本个数低于numNeg*maxFalseAlarm,在第二轮选择的时候从之前选择的负样本后面继续选择,而不是重头开始将选择过的负样本也包含进来,只有当遍历完一遍负样本列表后才重头在扫描一遍

4 weightTrimWeight:影响参与训练的样本,不管是正样本还是负样本,当更新完样本权重之后,将样本权重按照从小到大的顺序排列,当从后累加样本权重不小于weightTrimWeight时前面的样本就不参与后面的训练了,这里有一个优化是等于该阈值的样本还是参与训练的,这样可以在保证训练精度的基础上缩短检测时间,因为我们认为是样本权重很小的时候表示该样本被正确分类了,而忽略了样本很多的时候,尽管样本没有被正确分类,也可能被排除在外了。还有一种情况就是正样本比例悬殊的时候,例如1:20,当正样本完全分类正确了,那么正样本比例总和仅占4.8%,后续参与训练的正样本可能就没有了

5 maxWeakCount:决定每级强分类器中弱分类器的最大个数,当FA降不到指定的maxFalseAlarm时可以通过指定最大弱分类器个数停止单个强分类器

6 boost参数(maxDepth、bt):影响决策树构建的法则以及权重更新策略

至于Gentle AdaBoost.考虑到(AdaBoost对”不像”的正样本权值调整很高,而导致了分类器的效率下降),而产生的变种算法.它较少地强调难以分类的样本.

Rainer Lienhart, Alexander Kuranov, Vadim Pisarevsky在论文Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection中提出在stump弱分类器(即每个弱分类器使用一个特征进行分类)上进行的对比试验中,Gentle的结果明显好于Real和
Discrete.

有不对的地方请指教!

时间: 2024-10-12 13:43:58

OpenCV中Adaboost训练的经验总结的相关文章

OpenCV中的Haar+Adaboost(七):分类器训练过程

本节文章讲解OpenCV中Haar+Adaboost的训练过程.此文章假定读者已经了解前面5章的内容,包括Haar特征,弱分类器和强分类器结构,以及GAB等内容. 在opencv_traincascade.exe程序中,有如下参数 如上输入的boostParams中的6个参数决用于决定训练过程: 1. 参数bt选择Boosting类型(默认GAB),本系列文章五中已经介绍了 2. minHitRate和maxFalseAlarmRate限定训练过程中各种阈值大小,文章六已经介绍了 3. 参数we

OpenCV中的Haar+Adaboost(五):AdaBoost之DAB与GAB

之前的文章主要讲解了OpenCV中与检测相关的内容,包括Haar特征.积分图和检测分类器结构:之后的文章将逐步开始介绍训练相关的内容.而本节主要介绍AdaBoost的理论,以及AdaBoost中的DAB与GAB算法,为后续讲解奠定基础. (一) AdaBoost背景介绍 在了解AdaBoost之前,先介绍弱学习和强学习的概念: 1. 弱学习:识别错误率小于1/2,即准确率仅比随机猜测略高的学习算法 2. 强学习:识别准确率很高并能在多项式时间内完成的学习算法 显然,无论对于任何分类问题,弱学习都

OpenCV中的Haar+Adaboost(六):minHitRate与maxFalseAlarm

在之前的文章中,分别讲解了Haar特征,强弱分类器组合形式,以及GAB.那么在了解这些内容的基础上,本节开始正式讲解OpenCV Adaboost训练过程.需要再次说明的是,本系列文章讲解的是OpenCV中的opencv_traincascade.exe程序的实现方法,并不代表仅只有此一种实现方法. ------------------------------------------- 在了解训练过程之前,还需要分析一些和训练相关的原理. (一)precision与recall 对于所有的监督学

opencv之adaboost中的cvCreateMTStumpClassifier函数详解~

cvCreateMTStumpClassifier函数出自opencv中的haartraining程序,在adaboost(cvCreateTreeCascadeClassifier)的强分类器(icvCreateCARTStageClassifier)中被两次调用,该函数用于寻找最优弱分类器,或者说成计算最优haar特征.功能很明确,但是大家都知道的,opencv的代码绝大部分写的让人真心看不懂,这个函数算是haartraining中比较难以看懂的函数,局部变量达到20个之多,童鞋我也是不甘心

adaboost训练参数详解

利用adaboost训练人脸分类器时,主要做几件事,准备正负样本,生成正样本pos.vec文件,生成负样本列表文件,训练等,具体可以看这几个博客: http://blog.csdn.net/u013355191/article/details/40381107,这里不赘述. 记录下我在研究过程理解的,生成正样本程序CreateSamples.exe以及训练程序opencv_haartraining.exe的所有参数的具体意义与用处. CreateSamples.exe参数详解 这个可执行程序主要

正式使用opencv里的训练和检测 - opencv_createsamples、opencv_traincascade

好久没有来写blog了,学生生涯终结,就不好好总结了,今天把opencv里关于adaboost训练和检测的过程记录下来,方便别人也方便自己~~~啊哈哈~~~~ 一.基础知识准备 首先,opencv目前仅支持三种特征的训练检测, HAAR.LBP.HOG,选择哪个特征就去补充哪个吧.opencv的这个训练算法是基于adaboost而来的,所以需要先对adaboost进行基础知识补充啊,网上一大堆资料,同志们速度去查阅.我的资源里也有,大家去下载吧,这些我想都不是大家能直接拿来用的,我下面将直接手把

[OpenCV-Python] OpenCV 中计算摄影学 部分 IX 对象检测 部分 X

部分 IX计算摄影学 49 图像去噪目标 ? 学习使用非局部平均值去噪算法去除图像中的噪音 ? 学习函数 cv2.fastNlMeansDenoising(),cv2.fastNlMeansDenoisingColored()等原理 在前面的章节中我们已经学习了很多图像平滑技术,比如高斯平滑,中值平滑等,当噪声比较小时这些技术的效果都是很好的.在这些技术中我们选取像素周围一个小的邻域然后用高斯平均值或者中值平均值取代中心像素.简单来说,像素级别的噪声去除是限制在局部邻域的.噪声有一个性质.我们认

opencv中的 HOGDescriptor 类

其定义在  object.hpp中找到的: [cpp] view plain copy struct CV_EXPORTS_W HOGDescriptor { public: enum { L2Hys=0 }; enum { DEFAULT_NLEVELS=64 }; CV_WRAP HOGDescriptor() : winSize(64,128), blockSize(16,16), blockStride(8,8), cellSize(8,8), nbins(9), derivApertu

OpenCV中的SVM参数优化

OpenCV中的SVM参数优化 标签: svm参数优化opencv SVMSVR参数优化CvSVMopencv CvSVM 2014-08-19 10:31 2995人阅读 评论(8) 收藏 举报  分类: 机器学习(11)  opencv(18)  版权声明:本文为博主原创文章,未经博主允许不得转载. SVM(支持向量机)是机器学习算法里用得最多的一种算法.SVM最常用的是用于分类,不过SVM也可以用于回归,我的实验中就是用SVM来实现SVR(支持向量回归). 对于功能这么强的算法,OpenC