笔记:Semi-supervised domain adaptation with subspace learning for visual recognition (cvpr15)

本文基于子空间学习提出了一种半监督的域自适应框架(SDASL)。在这个框架中,一方面学习一个领域不变(domain invariant)的低维结构(low-dimension structure),也就是子空间,从而减少不同域上数据分布不同带来domain shift影响;另一方面通过正则项利用目标域上的unlabeled样本来学习目标域上的结构信息。具体而言,首先在源域和目标域上分别学习一个映射(这个映射用一个矩阵表示),可以将样本表示映射到一个低维的公共子空间上,然后在这个子空间上进行分类,使用线性分类器。整个流程可以用下图表示:

需要注意的是文章算法使用的并不是直接图像rgb特征,而是图像在decaf上第8层全连接层输出。

我们希望这个子空间首先具有这样的性质:对于属于同类的样本,不管来自于哪个域,它们的表示应该尽可能相似,这个通过拉普拉斯矩阵来构造损失;同时,为了充分利用目标域上丰富的无标记样本,我们要求相近的无标记样本最后得到的分类器输出也相似。这种相似关系在算法的输入空间上刻画,通过affinity matrix表示。本文针对上面的目标构造了三个损失项,一个在文章称为结构化风险(structural risk),它是分类损失;第二个称为结构保护(structure preservation),保证同类的样本(不管来自于哪个域)都有相近的表示;第三个称为流形正则(manifold regularization),它的假设是如果两个样本相似,那么最终分类器的输出也应该相似。这样就可以充分利用半监督条件下的不带标记的样本。最后目标函数的构成如下:

本文对目标函数,优化方法对工作进行了介绍,下面具体分析。

目标函数

1. 结构化风险(structural risk)

这个损失可以看成一个子空间上线性分类器的分类损失,它的表示如下:

其中的w与b表示线性分类器的系数,对于不同的域上的样本我们采用不同的分类器系数,第一项是分类损失,这里采用2范数;第二项是模型复杂度的正则项。M是一个映射矩阵。它是将样本从原始的数据集(源域或者目标域)上映射到子空间的映射,X*m可以看作样本在子空间上的特征表示。我们一般规定这种映射矩阵的两列是互相垂直的,所以两个m举证都是正交矩阵。

在子空间学习中,我们假设不同视角的样本来自于来源于相同的子空间,我们的目标是学习寻找这个子空间(也就是学习到从源域或目标域到空间的映射),从而学到这种不变的结构,从而减少不同域上的偏移。基于这个假设的线性分类器可以表示如下:

2. 结构保护(structure preservation):在子空间问题中,我们希望同类的物体是基于相近的或者相似的特征,也就是在源域或者目标域上标签相同的样本,我们希望它们在子空间上有相似的表示。这个通过laplacian矩阵的性质来实现。

3. 流行正则(manifold regularization):流型的正则项常用于半监督学习,在这种条件下,有一些样本是有标签的,另外的样本是无标签的。流形正则项有关的是无标记的样本,它的形式是保证在分类器上相似的无标签样本有相似的输出。从而保证分类器的合理性。这里涉及到如何衡量两个样本的相似关系,本文采用的是基于K近邻的高斯函数表示,来构造亲和矩阵衡量两个样本之间的相似度关系。具体而言,这个正则项表示为:

其中S就是亲和矩阵,后面是衡量分类器的结果的距离。S的元素的表示如下:

通过这种方式,可以充分利用相似的无标记样本之间的关系。

模型的求解

求解这个模型并不是一个凸问题。作者将整个目标函数中的参数分为两个部分进行优化:

1. 映射矩阵m,它将观测的样本映射到一个subspace,学习它实际上就可以看作寻找子空间的过程;

2. 分类器函数w和b,它是基于子空间学习到的分类器参数,学习它可以看作在子空间上寻找合适分类界面的过程。

对于这两个部分的参数,本文通过将分类器参数用映射矩阵表示来进行模型求解:

1. 首先求得在给定映射矩阵m的条件下,求目标函数的导数,得到参数之间的关系,将分类器的参数使用子空间的参数表示。

2. 将上面的结果代入到目标函数,将目标函数表示为子空间的参数的形式。

那么整个模型的形式可以表示为:

这个模型由于后面的正交约束,是一个非凸的。对于上面的非凸问题,本文采用了结合曲线搜索的梯度法,参考文章:

[1] Yin W, Wen Z. A feasible method for optimization with orthogonality constraints[J]., 2012.

然后根据参数之间的关系得到分类器的最有参数。

对于测试样本,首先将样本映射到子空间上,然后用目标域上的学到的参数进行映射以及分类,最后取分类器的符号得到最后的结果。

整个模型优化的流程如下:

实验:本文用decaf的第八层FC8层的输出作为本文算法的输入。

时间: 2024-10-10 15:31:34

笔记:Semi-supervised domain adaptation with subspace learning for visual recognition (cvpr15)的相关文章

笔记:unsupervised domain adaptation by backpropagation

这篇文章是结合对抗网络框架与深度学习技术解决domain adaptation应用的一个工作.具体而言,在这个框架中对三个部分进行训练:一个是feature extractor,这个是用于提取特征的,一般由卷积层与pooling层组成:另一个是label classifier,使用全连接层+逻辑斯蒂分类器:第三个在一般的分类器中不会出现,也就是和feature extractor构成对抗网络框架的分类器domain classifier,它也是一个分类器,由全连接层+交叉熵分类器构成.其中全连接

笔记:Beyond sharing weights for deep domain adaptation

Based on deep learning, instead of sharing weights across source and target domains, this work proposed a two-stream architecture where different streams operate on different domains, with an additional loss function to imply the relationships across

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke

论文阅读 | A Curriculum Domain Adaptation Approach to the Semantic Segmentation of Urban Scenes

paper链接:https://arxiv.org/pdf/1812.09953.pdf code链接:https://github.com/YangZhang4065/AdaptationSeg 摘要: 在过去的5年里面,卷积神经网络在语义分割领域大获全胜,语义分割是许多其他应用的核心任务之一,这其中包括无人驾驶.增强现实.然而,训练一个卷积神经网络需要大量的数据,而对于这些数据的收集和标注是极其困难的.计算机图形学领域的最新研究进展使得利用计算机生成的注释在接近真实照片的合成图像上训练CNN

【CV】ICCV2015_Unsupervised Learning of Visual Representations using Videos

Unsupervised Learning of Visual Representations using Videos Motivation: - Supervised learning is popular for CNN to train an excellent model on various visual problems, while the application of unsupervised learning leaves blank. - People learn conc

Deep Residual Learning for Image Recognition

Kaiming HeXiangyu ZhangShaoqing RenMicrosoft Research {kahe, v-xiangz, v-shren, jiansun}@microsoft.com Abstract Deeper neural networks are more difficult to train. Wepresent a residual learning framework to ease the trainingof networks that are subst

Deep Residual Learning for Image Recognition (ResNet)

目录 主要内容 代码 He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]. computer vision and pattern recognition, 2016: 770-778. @article{he2016deep, title={Deep Residual Learning for Image Recognition}, author={He, Kaiming and Zhang,

笔记:Deep transfer network: unsupervised domain adaptation

这篇文章里提出了一种用MMD来同时对两个域上的marginal distribution和conditional distribution进行约束的迁移网络. 具体而言,用MMD来对两个域(源域和目标域)上的提取到的特征分布进行约束,从而使两个域上的特征分布尽可能相同,这个分布叫做marginal distribution:同时对两个域上的softmax分类结果用MMD来进行约束,使得两个分类结果的分布尽可能相同,这个分布叫做conditional distribution.这两个方面应该和这篇

Stanford机器学习课程笔记(1) Supervised Learning and Unsupervised Learning

最近跟完了Andrew Ng的Machine Learning前三周的课,主要讲解了机器学习中的线性回归(Linear Regression)和逻辑回归(Logistic Regression)模型.在这里做一下记录. 另外推荐一本统计学习的书,<统计学习方法>李航,书短小精悍,才200多页,但是内容基本上覆盖了机器学习中的理论基础. 笔记<1> 主要了解一下监督学习和无监督学习 机器学习:是关于计算机基于数据 构建概率统计模型 并运用模型对数据进行预测与分析的一门学科. 机器学习