论文阅读之 A Convex Optimization Framework for Active Learning

A Convex Optimization Framework for Active Learning


Active learning is the problem of progressively selecting and annotating the most informative unlabeled samples, in order to obtain a high classification performance.
目前AL方法存在的问题有:
1.大部分AL算法在预训练分类器之前,都一次只选择一个样本;这就导致计算复杂且无法利用并行标注系统;
2.一次可以选择多个样本的算法,又可能存在着样本重叠覆盖的问题,或者是要求解非凸问题.
更重要的问题是,之前的AL算法是专门为特定的分类器而设计的,例如:SVM. 本文的算法可以用于任何分类器,应用范围更加广泛.

本文主要贡献:
本文在凸优化的基础上提出了一种AL框架,可以同时选择多个样本进行标注,可以和任何类型的分类器相结合,包括基于稀疏表示的分类器.利用分类器的不确定性和样本的多样性来引导选择最具有信息性的无标签数据,并且有最小的信息重叠.
文章的主要框架:

2. Dissimilarity-based Sparse Modeling Representative Selection (DSMRS)

3. Active Learning via Convex Programming

we use the two principles of classifier uncertainty and sample diversity to define confidence scores for unlabeled samples.

3.1. Classifier Uncertainty (分类器的不确定性)

Now, for a generic classifier, we define its confidence about the predicted label of an unlabeled sample. Consider data in L different classes. For an unlabeled sample i,we consider the probability vector p i = p i1 · · · p iL , where p ij denotes the probability that sample i belongs to class j. We define the classifier confidence score of point ias:   

其中delta>1,E(.)代表熵函数(Entropy function).

对于置信度较高的样本,分类器置信度得分最低,即为1; 对于置信度较低的样本,分类器置信度得分最高,为delta.

该图片说明了选择低置信度样本的必要性和有效性.绿色的x表示标注的数据.

3.2.  Sample Diversity  样本的多样性;

More specifically, sample diversity states that informative points for classification are the ones that are sufficiently dissimilar from the labeled training samples (andfrom themselves in the batch mode setting).
该图说明了标注样本多样性的优势.

从左图可以看出,只标注离分界面最近的样本,仍然无法正确进行分类,但是选择那些跟训练样本不同的sample进行标注,则可以得到较好的分类效果.
				
时间: 2024-10-05 19:25:57

论文阅读之 A Convex Optimization Framework for Active Learning的相关文章

【阅读笔记】Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation 作者:Lin Yang, Yizhe Zhang, Jianxu Chen, Siyuan Zhang, Danny Z. Chen 针对问题: 1.医学方向训练集数据较少 2.仅专业人士能进行标注,耗费人力物力,数据集数量难以快速提升 贡献点: 1.提出了新的全卷积网络(FCN),在测试数据集上取得了很好的结果 2.

【论文阅读】DGCNN:Dynamic Graph CNN for Learning on Point Clouds

毕设进了图网络的坑,感觉有点难,一点点慢慢学吧,本文方法是<Rethinking Table Recognition using Graph Neural Networks>中关系建模环节中的主要方法. ## 概述 本文是对经典的PointNet进行改进,主要目标是设计一个可以直接使用点云作为输入的CNN架构,可适用于分类.分割等任务.主要的创新点是提出了一个新的可微网络模块EdgeConv(边卷积操作)来提取局部邻域信息. 其整体的网络结构如下所示,值得注意的有: 整体的网络结构与Point

论文阅读记录: Automatic Image Colorization sig16

sig论文阅读记录 Let there be Color!: Joint End-to-end Learning of Global and Local Image Priorsfor Automatic Image Colorization with Simultaneous Classification ( siggraph 2016 ) 论文简介 论文主页:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/ 作者是来自Wa

Deep Learning for Natural Language Processeing : Convex Optimization

效率爆表的一个晚上,只是因为没带手机,可怕! 今天开启新的课程,http://cs224d.stanford.edu/syllabus.html 第一章是凸优化,convex Optimazition 凸集 Convex Set 定义: A set C is convex if, for any x, y ∈ C and θ ∈ R with 0 ≤ θ ≤ 1,θx + (1 ? θ)y ∈ C. 判别方法:如果一个集合C是凸集,则C中任意两个元素连线上的点都属于C 举例:所有的实数空间:实数

论文阅读方法

论文阅读方法 别先读摘要,从导言部分入手 找出大问题 这个领域正在设法解决什么问题? 以不超过5句话的篇幅总结背景 为解决这一"大问题",这一领域做过什么努力?之前的工作有什么局限?在作者看来,下一步需要做什么?简洁地解释为什么要进行这项研究. 找出具体问题 作者在他们的研究中究竟想回答什么问题?把这些问题(不一定是一个)写下来.如果是那种研究一个或者多个零假设的研究,把零假设辨别出来. 弄清解决手段 为了回答这些具体的问题,作者要怎么做? 阅读方法部分 为每一个实验画出一个图表,画出

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

论文阅读--Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov 引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Confere

CMU Convex Optimization(凸优化)笔记1--凸集和凸函数

CMU凸优化笔记--凸集和凸函数 结束了一段时间的学习任务,于是打算做个总结.主要内容都是基于CMU的Ryan Tibshirani开设的Convex Optimization课程做的笔记.这里只摘了部分内容做了笔记,很感谢Ryan Tibshirani在官网中所作的课程内容开源.也很感谢韩龙飞在CMU凸优化课程中的中文笔记,我在其基础上做了大量的内容参考.才疏学浅,忘不吝赐教. 1.凸集合 1.1 基本概念 定义:给定一个集合$C \subseteq \mathbb{R}^n $,满足下列条件