什么是监督学习非监督学习，强化学习

机器学习按照学习方式的不同，分为很多的类型，主要的类型分为

监督学习
非监督学习
强化学习
半监督学习

什么是监督学习？

利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练。

正如下图中给出了好多鸭子的特征那样，指示出那些是鸭子哪些不是鸭子，然后让计算机进行学习，计算机要通过学习才能具有识别各种事物和现象的能力。

用来进行学习的材料就是与被识别对象属于同类的有限数量样本，在本例子中指的是哪些选择的鸭子。

除此之外，监督学习中在给予计算机学习样本的同时，还告诉计算各个样本所属的类别。

当再次给出一个特征图片的时候，就可以通过预测模型进行判断。

监督学习就是标明一些数据是对的，另一些数据是错的，然后让程序预测，新的数据是对的还是错的。所以说，有监督学习，必须是有标签的。

什么是无监督学习？

无监督学习，顾名思义，就是不对数据进行标明，让机器自动去判断，哪些数据比较像，归到一类等等

无监督学习注重的是把特征对象归为类

什么是半监督学习？

半监督学习是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。

所给的数据有的是有标签的，而有的是没有标签的。

通过下图来进行举例，如果比做人的话，半监督学习就类似于人的生活，一些人是有标签的，比如商界的精英，总裁，一些人是无标签的，在社会中无标签的人占

大多数，有标签的精英占少部分。

当一个人进来的时候，就会对他的特征进行判断，也就是是否是精英进行判断，是否需要归为相同的类。

什么是强化学习？

强化学习的核心是一个概念，即最佳的行为或行动是由积极的回报来强化的。机器和软件代理使用强化学习算法，通过以环境的反馈为基础来确定理想行为。

强化学习算法可以在必要时随时间保持适应环境，以便长期获得最大的回报。比如一个通过强化学习来学习行走的机器人将通过尝试不同的方法获得有关这些方式成功的反馈，然后进行自我的调整直到达到行走的目标。大步伐会让机器人摔倒，通过调整步距来判断这是否是保持直立的原因，通过不同的变化持续学习，最终能够行走。

以上说明，奖励是保持直立，惩罚就是摔倒，机器人基于对其动作的反馈信息进而优化并强化。

强化学习需要大量的数据。

比如在超级玛丽这一款游戏中，水道工通过环境的不断地变化，通过吃蘑菇进行不断地强化自己完善自己，这个过程就可以类比如强化学习

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

原文地址：https://www.cnblogs.com/leo1014/p/10158636.html

时间： 2024-07-29 23:39:05

什么是监督学习非监督学习，强化学习的相关文章

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

有监督学习无监督学习

原文作者:aihorizon.com原文链接:Machine Learning, Part I: Supervised and Unsupervised Learning译者:commondata 监督学习是指我们来教计算机如何“学习”,非监督学习是指让计算机自己学习.监督学习又有两个大的分支,一个是 regression,另一个是 classification. 既然是我们来教计算机如何学习,那就必定有一个“标准答案”.regression 是说,这个标准答案是连续的. 比如说,对三个月销售量

机器学习之非监督学习与强化学习

非监督式学习: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMzQ3NjQ2NA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" > 在此学习方式下.输入数据部分被标识,部分没有被标识,这样的学习模型能够用来进行预測,可是模型首先须要学习数据的内在结构以便合理的组织数据来进行预測.应用场景包含分类和回归,算法包含一些对经常使用监督

Machine Learning——Unsupervised Learning（机器学习之非监督学习）

前面,我们提到了监督学习,在机器学习中,与之对应的是非监督学习.无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构.因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案.这区别于监督学习和强化学习无监督学习. 无监督学习是密切相关的统计数据密度估计的问题.然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术.在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法. 我们来看两张图片: 从图中我们可以看到:非监督学习中没有任何的标签或者是有相同的标签或者

监督学习和非监督学习

监督学习利用标注好信息的样本,经过训练得到一个模型,可以用来预测新的样本分类当新来一个数据时,可以自动预测所属类型应用对于一幅遥感影像,对其中的部分水体,农田,建筑做好标记通过监督分类的方法得到其余水体.农田.建筑分类相关的方法支持向量机:寻找最大化样本间隔的边界分类决策树颜色形状状态进行分类回归直线拟合(最小二乘法) 通过已有的训练数据学习一个模型,当新来一个面积数据时,可以自动预测出销售价格回归的应用人脸好看程度评分.通过标记分数的图片得出回归模型,输入新的图片就

监督学习、非监督学习、半监督学习

在机器学习(Machine learning)领域,主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类.非监督学习:直接对输入数据集进行建模,例如聚类. 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数. 一.监督

Machine Learning — 监督学习与非监督学习

斯坦福大学的Machine Learning课程(讲师是Andrew Ng)公开课是学习机器学习的"圣经",以下内容是听课笔记. 一.何谓机器学习 Machine Learning is field of study that gives computers the ability to learn without being explicitly programmed. 也就是说机器学习不需要制定具体的模型,而是让计算机根据庞大的数据量自己训练模型,与之相对的,例如CFD软件,是建立

监督学习与非监督学习的区别

以下是摘抄自知乎上对监督学习与非监督学习的总结,觉得写得很形象,于是记下: 这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label).输入数据有标签,则为有监督学习,没标签则为无监督学习首先看什么是学习(learning)?一个成语就可概括:举一反三.此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案.机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),

对监督学习和非监督学习的理解

监督学习:通过人为地输入带有标签的训练数据集,使计算机训练得到一个较为合适的模型,对未知标签的数据进行预测.常见的监督学习算法:回归和分类. 1.回归(Regression):通常有两个及以上变量,数据一般是连续的,通过训练集变量之间的关系得到一条模拟训练样本的曲线,对未知数据的因变量进行预测,其中包括线性回归和非线性回归.如房价与面积的问题,就是线性回归. 2.分类(Classfication): 通常用于预测某件事发生的概率,也是输入带有标签的训练集,数据一般是离散的,比如推测某人是否患有肺