监督学习与非监督学习的区别

以下是摘抄自知乎上对监督学习与非监督学习的总结,觉得写得很形象,于是记下:

这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习


先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题
目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题
方法)分析未知数据(高考的题目)?

最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练
数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数
据输入时,我们就可以通过已有的关系得到未知数据标签。

在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如果数据没有标签,显然就是无监督学习(unsupervised learning)了,也即聚类(clustering)。

(但有监督学习并非全是分类,还有回归(regression),此处不细说。(哇擦,贵圈太乱,逼着我用了这么多括号))


前分类算法的效果普遍还是不错的,相对来讲,聚类算法就有些惨不忍睹了。确实,无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题,答案(标签)是非常重要的,假设两个完
全相同的人进入高中,一个正常学习,另一人做的所有题目都没有答案,那么想必第一个人高考会发挥更好,第二个人会发疯。

这时各位可能要
问,既然分类如此之好,聚类如此之不靠谱,那为何我们还可以容忍聚类的存在?因为在实际应用中,标签
的获取常常需要极大的人工工作量,有时甚至非常困难。例如在自然语言处理(NLP)中,Penn Chinese
Treebank在2年里只完成了4000句话的标签……


时有人可能会想,难道有监督学习和无监督学习就是非黑即白的关系吗?有没有灰呢?Good
idea。灰是存在的。二者的中间带就是半监督学习(semi-supervised
learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情
况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可
以接受甚至是非常好的分类结果。(此处大量忽略细节:

因此,learning家族的整体构造是这样的:
有监督学习(分类,回归)
?
半监督学习(分类,回归),transductive learning(不懂怎么翻译,直推式学习?)(分类,回归)
?
半监督聚类(有标签数据的标签不是确定的,类似于:肯定不是xxx,很可能是yyy)
?
无监督学习(聚类)

时间: 2024-07-28 16:48:47

监督学习与非监督学习的区别的相关文章

Machine learning —Machine learning :分类和聚类,监督学习和非监督学习

印象笔记同步分享:Machine Learning-分类和聚类,监督学习和非监督学习

监督学习与非监督学习

1.监督学习 是有特征和标签的,即便是没有标签的,机器也是可以通过特征和标签之间的关系,判断出标签.监督学习是通过训练让机器自己找到特征和标签之间的联系,在以后面对只有特征而没有标签的数据时可以自己判别出标签.相当于给定数据,预测标签.常见的有监督学习算法:回归分析和统计分类. 2.非监督学习 由于训练数据中只有特征没有标签,所以就需要自己对数据进行聚类分析,然后就可以通过聚类的方式从数据中提取一个特殊的结构.输入的数据没有标记,也没有确定的结果,只有特征,没有标签.无监督学习的方法分为两大类:

监督学习、 非监督学习、 半监督学习

在机器学习(Machine learning)领域,主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类.非监督学习:直接对输入数据集进行建模,例如聚类. 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数. 一.监督

Machine Learning — 监督学习与非监督学习

斯坦福大学的Machine Learning课程(讲师是Andrew Ng)公开课是学习机器学习的"圣经",以下内容是听课笔记. 一.何谓机器学习 Machine Learning is field of study that gives computers the ability to learn without being explicitly programmed. 也就是说机器学习不需要制定具体的模型,而是让计算机根据庞大的数据量自己训练模型,与之相对的,例如CFD软件,是建立

监督学习和非监督学习

监督学习 利用标注好信息的样本,经过训练得到一个模型,可以用来预测新的样本 分类 当新来一个数据时,可以自动预测所属类型 应用 对于一幅遥感影像,对其中的部分水体,农田,建筑做好标记通过监督分类的方法得到其余水体.农田.建筑 分类相关的方法 支持向量机:寻找最大化样本间隔的边界 分类决策树 颜色 形状 状态进行分类回归 直线拟合(最小二乘法) 通过已有的训练数据学习一个模型,当新来一个面积数据时,可以自动预测出销售价格 回归的应用 人脸好看程度评分.通过标记分数的图片得出回归模型,输入新的图片就

对监督学习和非监督学习的理解

监督学习:通过人为地输入带有标签的训练数据集,使计算机训练得到一个较为合适的模型,对未知标签的数据进行预测.常见的监督学习算法:回归和分类. 1.回归(Regression):通常有两个及以上变量,数据一般是连续的,通过训练集变量之间的关系得到一条模拟训练样本的曲线,对未知数据的因变量进行预测,其中包括线性回归和非线性回归.如房价与面积的问题,就是线性回归. 2.分类(Classfication): 通常用于预测某件事发生的概率,也是输入带有标签的训练集,数据一般是离散的,比如推测某人是否患有肺

第五章 非监督学习

0 写在前面 前两天多看了两章一直都没更新,今天写的时候发现有些忘了,刚好捡起来回顾一下,近来也没什么事,兴趣来了就在图书馆泡一天看看自己喜欢的.再次重复下,这是第一遍,加之基础不好,明年才有可能出去实习,现在主要看看大概的知识框架,后续还会回头细看.扯远啦,步入正题. 相比于监督学习,非监督学习的输入数据没有标签信息,需要通过算法模型来挖掘数据内在的结构和模式.非监督学习主要包括两大类学习方法:数据聚类和特征变量关联. 1 K均值聚类 分类问题属于监督学习范畴,而聚类则是非监督学习.K-mea

有监督学习和无监督学习

有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测.这里,所有的标记(分类)是已知的.因此,训练样本的岐义性低. 无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识.这里,所有的标记(分类)是未知的.因此,训练样本的岐义性高.聚类就是典型的无监督学习 附: 机器学习中的方法或范式(paradigm)有很多种分类体系,例如从学习的方式分,有例子中学习.类比学习.分析学习等,但一般来说,现在研究得最多.被认为最有用

Machine Learning——Unsupervised Learning(机器学习之非监督学习)

前面,我们提到了监督学习,在机器学习中,与之对应的是非监督学习.无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构.因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案.这区别于监督学习和强化学习无监督学习. 无监督学习是密切相关的统计数据密度估计的问题.然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术.在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法. 我们来看两张图片: 从图中我们可以看到:非监督学习中没有任何的标签或者是有相同的标签或者