机器学习基石第三讲:types of learning

博客已经迁移至Marcovaldo’s blog (http://marcovaldong.github.io/)

刚刚完成机器学习基石的第三讲,这一讲主要介绍了机器学习的分类,对何种问题应该使用何种机器学习方法。将笔记整理在下面。

Learning with Different Output Space

前面讲的信用卡发放问题是一个是非题,也就是说最后的输出只有两种,是一个二元分类(binary classification)。下图中给出了更多的二元分类问题的例子,对于这类问题我们要做的就是找到一个hypothesis(超平面或超曲面)能够很好的将下图中的圈圈和叉叉分开。当然,后面我们介绍更多的解决二元分类问题的算法。

下面要介绍的是多元分类(multiclass classification)。这里给出了一个实际的例子:贩卖机如何将不同面额的硬币分开(美元中的硬币有四种),这就是一个多元分类问题。多元分类问题是很多应用,特别是在计算机视觉等方面,下图介绍了其中的几种:

下面介绍回归分析(regrssion)。我们现在让机器做这样一件事,输入进去病人的状况,输出病人恢复健康需要的时间。这里的输出应该是在一个正实数域。对于这种输出空间是一个连续的区间的问题,我们称之为回归分析问题(输出空间有上下限的话称为bound regression)。比如根据一家公司以往的数据来分析其股票价格就是一个典型的回归分析问题。回归分析在统计学中是一类重要的问题,其构成了机器学习的又一数学基础。

现在我们考虑这样一个问题:给定一个句子,我们让机器来自动标出句子中每一个单词的词性(名词/动词/代词/副词等)。可以想象这个问题的输出空间存在着某种逻辑在里边,但又不能用穷举法(一个是输出空间太大,另一个是某些组合方式不存在:如一个句子中不可能全是动词等),所以我们希望让机器去学习到其中的一些结构,能够正确的处理句子。类似这种输出空间巨大且暗含某种结构的,我们称之为结构化学习(structured learning)。

这里简单介绍了多元分类、回归分析、结构化学习,是为了告诉大家机器学习不只是为了解决是非题,还有更多的复杂形式。不过这里最核心的是二元分类和回归分析。

最后是小测试:

Learning with Different Data Label

类似上面讲的硬币分类的问题我们称之为监督式学习(supervised learning),所谓监督是指我们不仅向机器提供了每一枚硬币的重量、尺寸等,我们还提供每一枚硬币的分类结果(就是该硬币实际的面额)。相对应地,如果我们只给出硬币的重量、尺寸等信息而没有给出硬币的实际分类结果,我们让机器自己想办法将硬币分成k类,这样的问题我们称之为聚类(clustering)。下面给出了一个对比图,左侧图中的数据点已经被标记了不同的颜色,表示机器已经知道每个数据点所属的类别;而右侧图中的数据点还没有标记类别,需要机器从数据中学到这些数据点应该分几类,以及每个数据点应该分到哪一类(这个问题更复杂)。

下图给出了几种非监督式学习:聚类(clustering)、密度分析(density estimation)、异常检测(outlier detection)。想要了解更多的话可以翻看我之前的博客

前面说了监督式学习和非监督式学习,下面介绍半监督式学习(semi-supervised learning)。在半监督式学习中,我们给机器的数据集中只有很少一部分数据是被标记的,我们希望机器从这样的数据集中学到一些东西。比如,社交网站上人脸识别,我们只标出很少一部分照片的类别(姓名等),然后让机器帮助我们去完成标记工作。半监督式学习用在人工标记数据的成本很高的问题上。

视频中还介绍了增强式学习(reinforcement learning),大意是说当机器犯错时会作出相应的惩罚项以修正hypothesis,当机器分类正确时给予一定的奖励(就好比训练宠物狗时,当狗作出正确的反应时给吃的,错了不给),相关知识会在以后的博客中详细介绍。

最后是小测试:

Learning with Different Protocol

在垃圾邮件分类系统中,我们通常先搜集大量的邮件,比如说2000封,并标注好每一封邮件的类别,然后将整个训练数据集输入给机器,机器从中学习到分类的技巧。我们称这样的学习方式为批量(batch)学习。对应的,我们将数据一条一条的输入给机器,机器判断其类别,根据其结果的正确性相应修正hypothesis,这样的学习方式成为在线(online)学习。PLA算法、增强式学习通常应用于在线学习。最近又发展处了可以主动“问问题”的机器学习算法,比如有一个手写识别的机器,其主动写出一个数字(比如8),人工去标记它(标记为8),然后机器就知道了“哦,类似这样的手写数字可能是哪个(可能是8)”。类似这样的学习方式,我们称之为主动(active)学习。主动学习使机器能够有技巧的主动“问问题”,通常用于标记数据成本昂贵的问题。

下图给了三者的一个形象比喻。这个课程主要介绍批量学习。

然后本小节测试:

Learning with Different Input Space

这一小节讲的是特征工程(feature engineering):将原始的数据转化为真正可以作为机器学习的training set的过程。特征工程实际上用到了一些待处理问题所在领域的一些相关问题,比较复杂,在后面的课程还会介绍。实际上这一小节要告诉大家的是,我们要对最原始的数据进行特征提取等处理后,再输入给机器,去做机器学习。

本节小测试:

最后一张图是对这一讲内容的概括。

时间: 2024-08-03 23:27:17

机器学习基石第三讲:types of learning的相关文章

机器学习基石第三讲 Types of Learning

一.Learning with Different Output Space Y 二.Learning with Different Data Label yn 监督式学习,每个训练样本都有对应的label,相当于每个x都有一个y对应 非监督式学习,每个训练样本是没有label的,需要电脑自己划分,类似于聚类,只有x而没有y 有些时候样本过于庞大,没法完全标签,只能对其中一部分标签,所以诞生了半监督式学习 增强式学习,很难明确的定义一个label,很难给x一个明确的y,比如21点,很难给要牌或者

机器学习中的学习方式-Types of learning

Types of learning 根据个人理解,机器学习中的学习方式的分类有利于我们在面对一个具体的问题时,能够根据要达到的目标选择合适的机器学习算法来得到想要的结果.比如,判断一封电子邮件是否是垃圾邮件,就要使用分类(classification),那要达到分类的效果就要使机器学会怎么样去分类,这就是学习的过程.在学习的过程在又分为四大类: 1)监督学习    (supervised learning) 2)无监督学习(unsupervised learning) 3)半监督学习(semi-

机器学习基石第一讲:the learning problem

博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) Andrew Ng的Machine Learning比較简单,已经看完.林田轩的机器学习基石很多其它的是从概率论的角度来介绍机器学习,之前的视频已经听了大半.但好多都是模棱两可. 如今从头開始,认真整理笔记.笔记的结构遵从课程视频的结构. 以下是机器学习基石的第一讲:the learning problem Course Introduction 机器学习是一门理论和实践相结合的课

机器学习基石——第1-2讲.The Learning Problem

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第一讲-------The Learning Problem 一.课程总体 Machine Learning是一个理论与应用混合的工具,本课程则主要是f

机器学习基石第三讲笔记

第三讲介绍了不同类型的机器学习问题,根据4个方面划分:输出空间,标签,方式,输入空间. 1. 根据输出空间y不同划分:通过变换y的种类,可得到不同的机器学习问题 (1)y = {+1, -1}:二元分类问题,类似于做是非题,机器学习的基础. (2)y = {0, 1, 2, ..., k}:k元分类问题,类似于做单选题. (3)y = R:回归分析. (4)y = structures:structured learning,给定一段序列,判断序列的各个部分属于哪种结构.比如,输入一个句子,判断

机器学习基石笔记-chapter 1 The learning problem

什么时候适合用机器学习来解决问题? 存在潜在的规律用于学习 但是使用编程定义这种规律困难 存在包含这些规律的数据 机器学习的一种描述: 通过数据D,一个假设的集合H以及一种演算法A,找到集合H中的某个假设g,来逼近真实函数f. A takes D and H to get g.

机器学习基石——第3-4讲.Types of Learning

本栏目(机器学习)下机器学习基石专题是个人对Coursera公开课机器学习基石(2014)的学习心得与笔记.所有内容均来自Coursera公开课Machine Learning Foundations中Hsuan-Tien Lin林轩田老师的讲解.(https://class.coursera.org/ntumlone-002/lecture) 第3讲-------Types of Learning 上一节讲到如果要回答YES/NO的是非问题,我们可以使用像PLA(感知机)这样的算法,他会在无数

NTU-Coursera机器学习:机器学习基石 (Machine Learning Foundations)

课讲内容 这门课以8周设计,分成 4个核心问题,每个核心问题约需2周的时间来探讨.每个约2个小时的录影中,每个小时为一个主题,以会各分成4到5个小段落,每个段落里会有一个后多个随堂的练习.我们在探讨每个核心问题的第二周.依上所述,課程的規畫如下: When Can Machines Learn? [何时可以使用机器学习] 第一周:(NTU-Coursera机器学习:机器学习问题与二元分类) 第一讲:The Learning Problem [机器学习问题]第二讲:Learning to Answ

機器學習基石(Machine Learning Foundations) 机器学习基石 手写版笔记大全

大家好,我是Mac Jiang.看到大家对我的博客的支持,非常感动.今天和大家分享的是我在学习机器学习基石时的手写笔记.当时在学习的时候,我把一些我认为重要的东西写了下来,一来是为了加深印象,二来是为了供以后复习之用. 网上的机器学习基石笔记也有很多,但大多是电子版,个人更加倾向于手写版的自由.毛主席曾经说过,"不动笔墨不读书",我觉得这句话非常有道理,以我个人的学习方法而言,是离不开笔墨的. 分享自己的笔记的目的主要是为大家提供一些学习上的帮助,和大家一起讨论学习,当然也可以在以后学