论文笔记之:Deep Attributes Driven Multi-Camera Person Re-identification

Deep Attributes Driven Multi-Camera Person Re-identification 
2017-06-28  21:38:55  

  【Motivation】

  本文的网络设计主要分为三个部分:

    Stage 1: Fully-supervised dCNN training
    Stage 2: Fine-tuning using attributes triplet loss
    Stage 3:Final fine-tuning on the combined dataset

  

  大致的网络网络结构以及流程图,如下所示:

  从这里,可以大致看出本文 属性识别的方法:sem-supervised learning 的方法来提升 网络识别能力,之所以识别能力不强,是因为现有的 attribute dataset 都是非常小的,这就导致了 deep neural network 训练不够充分,而手工标注这些数据又非常的困难,耗时费力。比较尴尬。。。

  

  本文首先在全部标注的行人属性识别网络上进行 监督训练,以得到初始的【属性识别网络】,此时的识别网络能力是不足的,即:weak。如何进一步的提升属性识别的能力呢?本文考虑到这么一个现象【同一个人的属性,应该有类似的属性识别结果】,基于该观察,作者利用 triplet loss function,在 instance 的基础上进行属性识别能力的改进:

  【三元组的构建】

  1. select an anchor sample

  2. select another positive sample with the same person ID ;

  3. select a negative sample with different person ID.

  

  而这部分网络训练的目标是:使得同一个人的属性输出结果尽可能的一致,而不同 instance 之间的属性输出结果差距尽可能的大,作者称该 triplet loss 为:attribute triplet loss。这部分的目标函数为:

  

  其中,D(.) 代表两个二元属性向量之间的距离函数,所以对应的损失函数可以表达为:

  

    其中 E 表示 triplet 的个数。

  但是,作者提到上述损失函数可能存在一些问题:the person ID label is not strong enough to train the dCNN with accurate attributes. Without proper constraints, the above loss function may generate meaningless attribute labels and easily overfit the training dataset U.

  于是,作者在上述损失函数的基础上添加了几条规则化项:

  

  公式(4)不仅确保了同一个人拥有相似的属性,并且避免了meaningless attribute。

  

  【在组合的数据集上进行微调】:

  用第二部分得到微调后的网络,预测一部分无标签数据,并且将这部分无标签数据 和 原始标注好的数据,一起来微调 属性识别网络。

  

  最后,就是如何利用这些属性进行最终的再识别???

  其实就是依赖于 属性之间的差距,借用作者摘要当中的话来说就是:

  By directly using the deep attributes with simple Cosine distance, we have obtained surprisingly good accuracy on four person ReID datasets. Experiments also show that a simple distance metric learning modular further boosts our method, making it significantly outperform many recent works.  
  

  

时间: 2025-01-02 16:15:27

论文笔记之:Deep Attributes Driven Multi-Camera Person Re-identification的相关文章

Deep Learning 论文笔记 (3): Deep Learning Face Attributes in the Wild

这是Xiaogang Wang和Xiaoou Tang组的一篇technical report,作者是优秀的学弟Ziwei Liu. 通常人脸识别里面先要对人脸图像进行检测和对齐,然后在相应的地方提取特征,但是在自然场景中,由于背景混乱,人脸检测和对齐会受到影响,进而影响特征提取和最后的识别效果. 这篇论文的主要思想是通过学习两个deep network来构建face attributes recognition的系统,其中第一个用来localization,第二个用来提取feature. 主要

【论文笔记】Deep Structured Output Learning for Unconstrained Text Recognition

写在前面:        我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正!E-mail:[email protected] 论文结构: Abstract 1.Introduction 2.Related Work 3.CNN Text Recognition Model 3.1 Character Sequence Model

论文笔记-Wide & Deep Learning for Recommender Systems

本文提出的W&D是针对rank环节的模型. 网络结构: 本文提出的W&D是针对rank环节的模型. 网络结构: wide是简单的线性模型,但是可以预先对特征做各种变换.交叉等来增加wide模型的非线性性. deep是一个FNN,对高维稀疏类别特征采取embedding降维,embedding的结果是在训练时候学出来的. wide与deep结合的方式,是将两者的输出通过加权最后喂给一个logistic损失函数.值得注意的是,这里是join train并不是ensemble,ensemble是

论文笔记-Joint Deep Modeling of Users and Items Using Reviews for Recommendation

基本思路:利用用户和商品的评论构建CNN预测评分. 网络结构: user review网络与 item review网络结构一致,仅就前者进行说明 从user review text到 look-up layer: 首先需要pre-train一个word embedding的词表,对某个用户,将其对所有商品的评论拼接为一条sequence,对其中的每个词,去look-up table中找对应的vector,所以最后形成的是一个word embedding的matrix,作为输入,进入convol

【论文笔记】Recursive Recurrent Nets with Attention Modeling for OCR in the Wild

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. <Recursive Recurrent Nets with Attention Modeling for OCR in the Wild>已经被CVPR 2016(CV领域三大顶会之一)正式接收了,主要是介绍了

论文笔记 Deep Patch Learning for Weakly Supervised Object Classi cation and Discovery

Background 1) "Patch-level image representation"的优势 "Patch-level image representation is very important for object classification and detection, since it is robust to spatial transformation, scale variation, and cluttered background" &

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke

【转】Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现

原作者:zouxy09 原文链接:http://blog.csdn.net/zouxy09/article/details/9993371 Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 [email protected] http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己

Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 [email protected] http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不