CNN-tracking-文章导读

1.MDnet:learning multi-domain convolution neural networks for visual tracking

MDnet是vot2015的冠军paper,由韩国Postech的Bohyung Han发表,测试了代码,在多个benchMark上的测试结果都比较好,但是速度比较慢,1fps,下面就开始介绍这篇paper的整体思路。

1.1 文章特点

a) shared layer 为offline train, unshared layer的parameter为online train.

b) 在offline阶段,fc6层有多个branches,每一个branch对应一种video/sequence[paper 中取名叫 domain-specific layers],即在进行train iteration时,每一次iteration,只有一个branch的fc6响应,所以需要每一次迭代的data-batch[文中叫mini-batch]要与相应的fc6_K相对应[原文为:Each domain in MDNet is trained separately and iteratively
while the shared layers are updated in every iteration]。

c) online阶段,将fc6_1~fc6_K换为一个fc6,然后固定conv的参数不变,训练fc6的权重,病fine-tune fc4~fc5的权重。

d) online阶段,训练数据利用到hard negative的思想,将negative samples 排序,选取其中score大的样本(更接近正样本的negative samples).

    1.2 details

a) shared layer的训练流程[offline train]如下图:

红色部分为domain-specific layers,offline train 时,选取positive&negative的规则见paper的4.4节[也是根据IoU来选]。network并不深,文章分析了采用这种VGG-M network的原因:deep为高级的语义特征,浅层为具有区分的特征。

b) 对于mini-batch迭代时与fc6对应问题:每次iteration只利用一个sequence[假设时第k个sequence]来生成mini-batch,并激活对应的fc6_k,其他的fc6_i被抑制,所以特别注意有这么一个对应关系。

c) online 阶段网络调整:将Figure1中的红色fc6_1 ~fc6_k统一换成一个fc6,因为在tracking时,只用一个sequence。训练时,固定conv的参数不变,训练fc6的参数,并fine-tune fc4,fc5的参数。因为原文中将conv3的输出作为特征,并不是fc5的输出作为特征,因为fc5输出的特征更具有语义性。最后网络输出score

d) online

阶段数据选取规则[hard minibatch]:原文The hard negative examples are identified by testing M? (>> M_h ? ) negative samples and selecting the ones with top M_h- positive scores.利用Gaussion 分布来选取候选框[translation],并做一定的scale处理[具体设置见paper]

update策略:采用Long-term(T_l) & short-term(T_s)更新,原文:Long-term updates are performed in regular intervals using the positive samples collected for a long period of time while short-term updates are conducted whenever potential tracking failures are
detected—when the estimated target is classified as background—using the positive samples in a short-term period。

Bounding box regression:利用conv3出来的特征做regression.paper 只是利用了first frame来train regressor[time cosuming].

parameter details: T_l=100,T_s=20[其他参数设置见原paper]

2. Fcnt:Visual Tracking with Fully Convolutional Networks

由港中文王晓刚发表,调试了代码,速度比MDnet快3倍左右,3fps.效果比MDnet差点,比一般的传统算法较好。

2.1 文章特点

a) 同样时offline pre-trained

b) 主要探索了不同Layer的特征具有不同的表达[基于VGG-net],toper layers 更多的时语义特征,而lower更多的discriminative information。

c) 然后在b)的基础上,运用不同的layers的feature map来做tracking.选择某些层的feature map可以去掉一些干扰[原文这么说得]

2.2 details

a)首先作者进行实验说明不同layers的feature map 有不同的意义,toper layers 更多的类别信息[对应选取conv5_3的特征],lower更多间内差别的信息[对应选取conv4_3的特征]。并且发现特征是稀疏的[很多背景的响应为zores,所以用稀疏矩阵更好],所以作者利用第一帧的mask和卷积的特征F,来计算稀疏矩阵C,之后,C固定,在之后的帧中,利用F和C来反求mask,公式如下:

b) paper中提出的方法如下:

    步骤为:

根据conv5_3和conv4_3筛选feature map(paper中4.1节有公式,更具对loss function的贡献来选择).因为conv4_3和conv5_3有很多个channels的feature map 它要选择一个最好的feature map 最为对应Gnet和Snet的输入。

利用conv5_3的特定feature map生成Gnet,conv4_3的特定feature map生成Snet,在Figure5中(c),(d)的两层卷积是一样的,Snet和Gnet的update策略不同(4.3节有update的策略,fix Gnet, update Snet very 20 frames,在更新Snet时,加入第一帧作为监督,因为只有第一帧是可信的)。

对于input,将候选区域(既有前景又有背景)crop后feed给VGG Net.

根据Snet和Gnet来确定跟踪的结果(4.2节有Location的策略,mentor paper sharing时提到,其实就是求概率score的最大,写paper时直接这么写太low)。

3. Learning to Track at 100 FPS with Deep Regression Networks

这篇文章也是基于cnn的tracking,貌似这篇文章没有被收录。思想很简单,下面说一下基本思想

3.1 文章特点

a) 针对以前有online的cnn-tracking,本问提出offline-cnn-tracking[就连最后的fc都是offline-cnn,可以看出此处会有些效果不好],由于时offline,所以速度很快,100fps.

b) 网络的输出:t_frame 相对 t-1_frame的位移坐标(相当于已经回归后的position)。

3.2 details

a) 训练的流程图如下:

图中,current frame 的crop会比 previous frame的object region大一些(paper中有一个策略),Conv Layers采用的是AlexNet的minor版,卷积后,将current和previous的特征输出合在一起为n*1的向量,然后fc层,最后以相对previous frame的center位置的评议向量(坐标)为输出。由于很简单,就不多说了。

4.Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network

cnn-tracking的思路大同小异.

4.1 文章特点

a) paper采用RCNN特征学习为offline,以fc6输出为特征,然后online的SVM分出正负sample。

b) 定位:利用SVM的weight和SVM分类出来的positive samples反投影为Target-specific features,进而得到saliency map,利用Generative model来定位。

c) update SVM&Generative model.

4.2 details

a) 流程图:

图中,sample features是fc6层出来的特征,这一步为offline,在SVM时,正负样本也是利用IoU来选取。

那么怎么利用SVM weights 和分类后的positive sample来获取显著图呢,显著图的直观意义为:The class-specific saliency map of a given image I is the gradient of class score Sc(I) with respect to the image as:

上式求解过程见原paper,求解会用到SVM weight.最后利用概率求最佳位置。

5.DeepTrack: Learning Discriminative Feature Representations Online for Robust Visual Tracking

由于时间关系,先上传流程图,有时间在补充每一步的细节。fps1.5~4.0

5.1 文章特点

a) CNN online:注意有positive samples pool,从中挑选样本来训练,以及模型更新的策略,生成不同的cues

b) boss funtion

c) SGD.

    5.2 details(以后补充)

输出:2D,表示正负score,利用指数函数来增加score的差距

cues之后的特征合在一起

输入图像灰度归一化到[0,10]

online 更新的策略:long-term和short-term,long-term从positive sample pool 中按照一定概率抽取,负样本同理。

最后按照mini-batch的误差大小来确定是否更新模型。

时间: 2024-07-30 16:14:30

CNN-tracking-文章导读的相关文章

Redis系列文章导读

1. Redis简介 1.1 Redis VS Memcached 2. Redis安装教程 3. Redis数据类型 4. Redis常用命令 5. Redis事务 6. Redis pipeline 7. Redis pub/sub 8. Redis持久化 9. Redis虚拟内存 10. Jedis 11. Redis协议 12. Redis主从复制 13. Redis集群方案

【跳脱旧我——心智砥砺之旅】系列文章导读

不负青春不负梦 <谁都有追逐梦想的权利> <临渊慕鱼,不如退而结网.> <知易行难--从"等待"到"穿越"> <想事.做事和成事> <谈治学> <一个预防堕落的秘方> 程序人生 <真的猛士> <人生博弈> <成功的境地> <生活是一种体验> <由人类学的观点想到> <跳出"画地为牢"的陷阱:更加明智地规划职业发

为原创性文章注明编辑或作者,以提高文章的可信度。

网站是我们在互联网上展示自己的一个窗口,那么这个窗口的好坏直接影响我们在互联网上的一些利益,所以做好我们互联网的窗口需要从用户体验和搜索引擎两方面考虑的.随着搜索引擎的算法不断的调整,在未来的时候,搜索引擎越来越重视用户体验.  一.感官体验:呈现给用户视听上的体验,强调舒适性.  1. 设计风格:符合目标客户的审美习惯,并具有良好的引导性.  网站在设计之前,必须明确目标客户群体,并针对目标客户的审美喜好,进行分析,从而确定网站的总体设计风格.  2. 网站LOGO:确保logo的保护空间,确

数据库高手(DBA专家 ,SSIS,replacation ,tourble shooting)

http://www.cnblogs.com/qanholas/category/266780.html 随笔分类 - mssql SQL Server 2008 Datetime Cast 成 Date 类型可以使用索引(转载) 摘要: 很久没写blog,不是懒,实在是最近我这的访问速度不好,用firefox经常上传不了图片 .......今天无意发现了SQL Server 2008 Datetime Cast 成 Date 类型可以使用索引,分享一下:测试环境:USETEMPDBGOCREA

Sql Server参数化查询之where in和like实现详解

来自:http://www.cnblogs.com/lzrabbit/archive/2012/04/22/2465313.html#wherein 文章导读 拼SQL实现where in查询 使用CHARINDEX或like实现where in 参数化 使用exec动态执行SQl实现where in 参数化 为每一个参数生成一个参数实现where in 参数化 使用临时表实现where in 参数化 like参数化查询 xml和DataTable传参  身为一名小小的程序猿,在日常开发中不可以

React的React Native

React无疑是今年最火的前端框架,github上的star直逼30,000,基于React的React Native的star也直逼20,000.有了React,组件化似乎不再步履蹒跚,有了React Native,前端的边界似乎广阔无边.而Webpack凭借它异步加载和可分离打包等优秀的特性,走在取代Grunt和Gulp的路上.而面向未来的ES6,模块化的支持似乎已成定局. 我们现在就可以打造自己的Webpack+React+ES6环境并且开始探索起来. 这篇文章就给还没走在这条路上的前端一

深度学习文献阅读笔记(2)

  12.深度学习的昨天.今天和明天(中文,期刊,2013年,知网) 记录了Hinton提出的两个重要观点:一是多隐层神经网络具有优异的特征学习能力,而是深度网络在训练上的难度可通过"逐层初始化"有效克服.详细描述了及机器学习的两次浪潮:浅层学习和深度学习,并指出深度学习研发面临的重大问题,属于一篇技术总结性文章. 13.基于卷积神经网络的植物叶片分类(中文,期刊,2014年,知网). 主要讲述CNN的发展历史. 14.改进的深度卷积网络及在碎纸片拼接中的应用(中文,期刊,2014年,

(转)如何运营微信公众号

很多人对微信营销很感兴趣,现在微信用户数量惊人,确实应该学习一下,下面这篇文章跟大家分享一下 有的人错过了2003年开淘宝的时机,又错过了微博营销,在2013年微信公众号火起来的时候大家似乎没有错过,于是一头扎进微信营销的浪潮中.腾讯公布的数据是现在有200多万公众号,而且以每天8000个的速度在增加,一片欣欣向荣的画面.今天我以私人管家微信公众号运营的角度来浅析下如何运营微信公众号,把日常运营中的一些小技巧和感想分享给大家. 首先想说一点:运营微信公众号是一门艺术,需要你用心去经营.这是综合了

深度学习文献阅读笔记(3)

21.深度神经网络在视觉显著性中的应用(Visual Attention with Deep Neural Networks)(英文,会议论文.2015年,IEEE检索) 这篇文章主要讲CNN在显著性检測领域的应用. 22.深度学习研究进展(中文,期刊,2015年.知网) 深度学习方面的一篇综述性文章,对深度学习的由来,人脑视觉机理,CNN结构都有较为具体的描写叙述,并介绍深度学习在今后的主要改进方向. 23.深度学习研究进展(中文,期刊,2014年,知网) 强调一点.就是Hinton等人所做的

你的旧船票能否搭上这艘巨轮?——解读近5年大数据产业发展规划

文|水手 本文出自:知乎专栏<帆软数据应用研究院>--数据干货&资讯集中地! 文章导读 一.大数据产业现状和挑战 二.2020年发展目标 三.实现目标的关键举措 四.<规划>对企业的启示 五.<规划>对个人的启示 自2015年党的十八届五中全会提出"实施国家大数据战略"以来,国家相关部门密集出台了多项大数据发展意见和方案,大数据政策从全面.总体规划逐渐向各大行业.各细分领域延伸,大数据发展也逐步从理论研究步入实际应用之路.在诸多的政策规划中,