主动学习简介

我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。而且,如果训练样本的规模过于庞大,训练的时间花费也会比较多。那么有没有办法,能够使用较少的训练样本来获得性能较好的分类器呢?主动学习(Active Learning)为我们提供了这种可能。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度。

在人类的学习过程中,通常利用已有的经验来学习新的知识,又依靠获得的知识来总结和积累经验,经验与知识不断交互。同样,机器学习模拟人类学习的过程,利用已有的知识训练出模型去获取新的知识,并通过不断积累的信息去修正模型,以得到更加准确有用的新模型。不同于被动学习被动的接受知识,主动学习能够选择性地获取知识,

主动学习的模型如下:

A=(C,Q,S,L,U),

其中 C 为一组或者一个分类器,L是用于训练已标注的样本。Q 是查询函数,用于从未标注样本池U中查询信息量大的信息,S是督导者,可以为U中样本标注正确的标签。学习者通过少量初始标记样本L开始学习,通过一定的查询函数Q选择出一个或一批最有用的样本,并向督导者询问标签,然后利用获得的新知识来训练分类器和进行下一轮查询。主动学习是一个循环的过程,直至达到某一停止准则为止。

刚才说到查询函数Q用于查询一个或一批最有用的样本。那么,什么样的样本是有用的呢?即查询函数查询的是什么样的样本呢?在各种主动学习方法中,查询函数的设计最常用的策略是:不确定性准则(uncertainty)和差异性准则(diversity)。

对于不确定性,我们可以借助信息熵的概念来进行理解。我们知道信息熵是衡量信息量的概念,也是衡量不确定性的概念。信息熵越大,就代表不确定性越大,包含的信息量也就越丰富。事实上,有些基于不确定性的主动学习查询函数就是使用了信息熵来设计的,比如熵值装袋查询(Entropy query-by-bagging)。所以,不确定性策略就是要想方设法地找出不确定性高的样本,因为这些样本所包含的丰富信息量,对我们训练模型来说就是有用的。

那么差异性怎么来理解呢?之前说到或查询函数每次迭代中查询一个或者一批样本。我们当然希望所查询的样本提供的信息是全面的,各个样本提供的信息不重复不冗余,即样本之间具有一定的差异性。在每轮迭代抽取单个信息量最大的样本加入训练集的情况下,每一轮迭代中模型都被重新训练,以新获得的知识去参与对样本不确定性的评估可以有效地避免数据冗余。但是如果每次迭代查询一批样本,那么就应该想办法来保证样本的差异性,避免数据冗余。

以下是两篇综述:

【1】Settles B. Active Learning Literature Survey[J]. University of Wisconsinmadison, 2010, 39(2):127–131.

【2】Fu Y, Zhu X, Li B. A survey on instance selection for active learning[J]. Knowledge and Information Systems, 2013, 35(2):249-283.

时间: 2024-10-26 11:00:58

主动学习简介的相关文章

迁移学习与主动学习

1.什么时候要进行迁移学习? 目前大多数机器学习算法均是假设训练数据以及测试数据的特征分布相同.然而这在现实世界中却时常不可行.例如我们我们要对一个任务进行分类,但是此任务中数据不充足(在迁移学习中也被称为目标域),然而却有大量的相关的训练数据(在迁移学习中也被称为源域),但是此训练数据与所需进行的分类任务中的测试数据特征分布不同(例如语音情感识别中,一种语言的语音数据充足,然而所需进行分类任务的情感数据却极度缺乏),在这种情况下如果可以采用合适的迁移学习方法则可以大大提高样本不充足任务的分类识

排序学习简介

译排序学习简介 声明 摘要 排序问题Training and Testing 1 训练和测试Training and Testing 2 数据标记Data Labeling 3 度量Evaluation 4 与传统分类问题的关系Relation with Ordinal Classification 公式 点对方法Pointwise Approach 1 SVM在顺序分类问题中的使用 序列方法Pairwise Approach 1 Ranking SVM 2 IR SVM Listwise Ap

简要介绍Active Learning(主动学习)思想框架,以及从IF(isolation forest)衍生出来的算法:FBIF(Feedback-Guided Anomaly Discovery)

1. 引言 本文所讨论的内容为笔者对外文文献的翻译,并加入了笔者自己的理解和总结,文中涉及到的原始外文论文和相关学习链接我会放在reference里,另外,推荐读者朋友购买 Stephen Boyd的<凸优化>Convex Optimization这本书,封面一半橘黄色一半白色的,有国内学者翻译成了中文版,淘宝可以买到.这本书非常美妙,能让你系统地学习机器学习算法背后蕴含的优化理论,体会数学之美. 本文主要围绕下面这篇paper展开内涵和外延的讨论: [1] Siddiqui M A, Fer

主动学习-1

http://videolectures.net/icml09_dasgupta_langford_actl/ ? ? 主动学习目的: 尽可能少的标注,获取尽可能好的训练结果 一般来说我们希望我们训练的模型能够对于natural distribution也就是说truly underlying distribution表现最好 ? ? 对于数据集合的随机抽取标注能够做到这一点,但是对于主动学习比如上面的策略,我们会倾向选取靠近分类面的点,那么我们的训练集合的数据点就会集中在分类面两侧,也就是说随

python学习---简介

http://www.cnblogs.com/wuguanglei/p/3866583.html http://www.cnblogs.com/wuguanglei/p/3866583.html ok? python学习---简介

[测试十年]搜狗测试第一年:主动学习篇

前情介绍: 小明和娜娜刚工作一年,他们有一个共同的leader-大熊. 小明在这一年里,学会了主动反馈,学会了细心谨慎,学会了融入团队. 今天小明又学会了主动学习,经过是怎样的呢?且听我慢慢道来~ 大熊每周三上午都会召开组内例会,娜娜发现每次例会上小明都有些心不在焉. 例会结束,大家去吃午饭,娜娜坐到小明旁边. 娜娜:"小明,你例会上看着有些心不在焉,怎么了?" 小明:"他们讲的东西我听不懂." 娜娜:"哪里听不懂?" 小明:"他们说的

主动学习

在当今技术和文化环境下,学习能力可能是成功的最重要因素.它决定了你是“大获全胜”还是“勉强通过” 学习是什么,不是什么? 对于程序员来说,技术本身并不重要,持续学习才是最重要的. 事实上,我们往往误解了教育的真正含义 教育,来自于拉丁文educare,字面意思是“被引出”,即引导出某样东西,而通常当我们考虑和想到教育时,往往考虑它的不是这个的真正含义--从学习者那里引导出一些东西.相反,更觉的看法是把教育当作学习者被动接受的事情--灌输,而不是引导.这种模式常见于“羊浸式培训” 羊浸式培训不起作

主动学习的重要性

从小我们就是被动学习,总是被老师灌输知识,因此在学习的过程中,老师会帮我们规避掉很多困难与错误.长大之后,有很多东西都是得自己主动去学的,会遇到各种各样的问题,都得自己想办法解决.如果一味的等待别人帮我们解决,那是学不会的,而在等待的同时可能别人就已经开始自己找解决问题的方法了,最后别人学会了,我们还在等待.此时,别人就成了我们眼里的学霸,大佬,殊不知,大佬最开始和我们一样,只不过,在我们等待的同时,他们已经在解决问题的路上了.主动学习,不要做一个只会等待喂食的雏鸟. 原文地址:https://

Deep Active Learning 深度主动学习

Deep Active Learning 最上方为监督学习,对面为非监督学习,之间包括增强学习.半监督学习.在线学习.主动学习. Supervised Learing 将未标记的数据交给Work进行标记,然后将标记数据交给Learner进行训练. Semi-Supervised Learning 在监督学习的基础上加了一条线,也就是把大量的未标记数据和少量的标记数据交给Learner进行训练,这样可以减少人工标记的时间. Active Learning 通过Learner来决定哪些数据需要被标记