机器学习中的标签数据和无标签数据

　　今天在数据人网上看到一篇文章。区分监督学习和无监督学习，监督学习的数据就是有标签数据，无监督学习的数据就是无标签数据。这是我的理解，欢迎指教。

原文链接http://www.shujuren.org/article/62.html 原文如下

监督式和非监督式机器学习算法

作者Frankchen

什么是监督式机器学习，它与和非监督式机器学习有什么关联呢？

本文中你将了解到监督式学习,非监督式学习和半监督式学习在阅读本文之后你将知道如下知识：

有关分类和回归的监督式学习问题
关于聚类和关联非监督式学习问题
用于监督式和非监督式问题的Example算法案例
半监督式学习介于监督式和非监督式学习之间

让我们开始吧。

监督式机器学习

实际应用中的机器学习在大部分情况下我们都会使用监督式学习。

监督式学习指的是你拥有一个输入变量(x)(x)和一个输出变量(Y)(Y)，使用某种算法去学习从输入到输出的映射函数

Y=f(X)Y=f(X)

我们的目标是足够好的近似映射函数，以便当我们在新的数据$(x)$上可以预测输出变量(Y)(Y)。

这种学习方式就称之为监督式学习，因为算法学习从训练数据集学习的过程可以被看成类似于一名教师在监督学习学习的过程。我们已经知道了正确的答案，而算法不断迭代来对训练数据做出预测同时不断被一名教师修正。当算法达到一个可接受程度的表现时学习过程停止。

监督式学习问题可以进一步被分为回归和分类问题

分类:分类问题指的是当输出变量属于一个范畴，比如“红色”和“蓝色”或者“生病”和“未生病”。
回归:回归问题指的是输出变量是一个实值，比如“价格”和“重量”

还有一些种类的问题建立在分类和回归之上，包括推荐问题和时序预测

一些流形的监督式机器学习算法的例子：

回归问题中的线性回归
分类和回归问题中的随机森林
分类问题中的支持向量机

非监督式机器学习

非监督式学习指的是我们只拥有(X)(X)但是没有相关的输出变量。

非监督式学习的目标是对数据中潜在的结构和分布建模，以便对数据作更进一步的学习。

这种学习方式就称为非监督式学习，因为其和监督式学习不同，对于学习并没有确切的答案和学习过程也没有教师监督。算法独自运行以发现和表达数据中的有意思的结构。

非监督式学习问题可以进一步分为聚类问题和关联问题

聚类问题：聚类学习问题指的是我们想在数据中发现内在的分组，比如以购买行为对顾客进行分组。
关联问题：关联问题学习问题指的是我们想发现数据的各部分之间的联系和规则，例如购买X物品的顾客也喜欢购买Y物品。

一些流形的非监督式学习算法的例子：

聚类问题的k-means算法
关联规则学习问题中的Apriori算法

半监督式机器学习

当我们拥有大部分的输入数据(X)(X)但是只有少部分的数据拥有标签(Y)(Y)，这种情形称为半监督式学习问题

半监督式学习问题介于监督式和非监督式学习之间。这里有一个好例子如：照片分类，但是只有部分照片带有标签(如，狗、猫和人)，但是大部分照片都没有标签。

许多现实中的机器学习问题都可以归纳为这一类。因为对数据打标签需要专业领域的知识，这是费时费力的。相反无标签的数据和收集和存储起来都是方便和便宜的。

我们可以使用非监督式学习的技术来发现和学习输入变量的结构。

我们也可以使用监督式学习技术对无标签的数据进行标签的预测,把这些数据传递给监督式学习算法作为训练数据，然后使用这个模型在新的数据上进行预测。

总结

从本文你可以了解到监督式,非监督式和半监督式学习的不同之处。你现在直到如下：

监督式学习:所有的数据都有标签并且算法从输入数据学习如何预测输
非监督式学习:所有的数据都是无标签的并且算法从输入数据中学习数据固有的结构
半监督式学习:部分数据是有标签的，但大部分没有标签，是一种监督式和非监督式学习的手段都可以使用的学习方法。

原文链接：Supervised and Unsupervised Machine Learning Algorithms

原文地址：https://www.cnblogs.com/aiall/p/11575065.html

时间： 2024-11-03 09:35:25

机器学习中的标签数据和无标签数据的相关文章

机器学习中的有监督学习，无监督学习，半监督学习

在机器学习(Machine learning)领域.主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出数据之间的相应关系.生成一个函数,将输入映射到合适的输出,比如分类. 非监督学习:直接对输入数据集进行建模,比如聚类. 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数. 一.监

机器学习中学习曲线的 bias vs variance 以及数据量m

关于偏差.方差以及学习曲线为代表的诊断法: 在评估假设函数时,我们习惯将整个样本按照6:2:2的比例分割:60%训练集training set.20%交叉验证集cross validation set.20%测试集test set,分别用于拟合假设函数.模型选择和预测. 模型选择的方法为: 1. 使用训练集训练出 10 个模型 2. 用 10 个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值) 3. 选取代价函数值最小的模型 4. 用步骤 3 中选出的模型对测试集计算得出推广误差(代价函

PU Learning简介:对无标签数据进行半监督分类

当只有几个正样本,你如何分类无标签数据假设您有一个交易业务数据集.有些交易被标记为欺诈,其余交易被标记为真实交易,因此您需要设计一个模型来区分欺诈交易和真实交易. 假设您有足够的数据和良好的特征,这似乎是一项简单的分类任务. 但是,假设数据集中只有15%的数据被标记,并且标记的样本仅属于一类,即训练集15%的样本标记为真实交易,而其余样本未标记,可能是真实交易样本,也可能是欺诈样本.您将如何对其进行分类? 样本不均衡问题是否使这项任务变成了无监督学习问题? 好吧,不一定. 此问题通常被称为PU

mahout贝叶斯算法拓展篇3---分类无标签数据

代码测试环境:Hadoop2.4+Mahout1.0 前面博客:mahout贝叶斯算法开发思路(拓展篇)1和mahout贝叶斯算法开发思路(拓展篇)2 分析了Mahout中贝叶斯算法针对数值型数据的处理.在前面这两篇博客中并没有关于如何分类不带标签的原始数据的处理.下面这篇博客就针对这样的数据进行处理. 最新版(适合Hadoop2.4+mahout1.0环境)源码以及jar包可以在这里下载Mahout贝叶斯分类不含标签数据: 下载后参考使用里面的jar包中的fz.bayes.model.Baye

如何让textarea中输入多行的数据在p标签中换行？

我们在用React开发Web项目的过程中,有的时候,我们需要把textarea中输入的多行字符串,在其他的标签中输出来,比如p标签.但是,往往这个时候,在p标签中输出的内容其默认情况下是不换行的.比如下面的代码: import React,{Component} from 'react'; export default class HelloWorld extends Component{ constructor(){ super(...arguments); this.state={ note

聊聊机器学习中的无监督学习

机器学习分为监督式机器学习.无监督式机器学习和半监督式机器学习.其划分的标准是训练样本是否包含人为标注的结果. (1)监督式机器学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果.监督学习的训练集要求是包括输入和输出,也可以说是特征和目标.训练集中的目标是由人标注的.常见的监督学习算法包括回归分析和统计分类. (2)无监督式机器学习:与监督学习相比,训练集没有人为标注的结果.常见的无监督学习算法有聚类. (3)半监督式机器学习:是监督学习和无监督学习相结合的一种

Struts2中UI标签之表单标签介绍

1.在Struts2中UI标签的表单标签分为两种:form标签本身和单个表单标签. 2.Struts2表单标签包括:form.textfield.password.radio.checkbox.checkboxlist.select.doubleselect.combobox.optiontransferselect.optgroup.updownselect.textarea.hidden.file.label.submit.token.head.datepicker.reset.richte

FineReport中如何用JavaScript自定义地图标签

在日常使用地图过程中,通常会遇到地图标签,提示点等显示不满足我们的需求,需要进行JavaScript代码编写. 例如:在使用地图过程中,会发现很多地名显示的位置偏离.这时候就需要使用JavaScript进行调控.以黑龙江和内蒙古为例,来介绍下如何在FineReport中利用JavaScript自定义地图标签. 新建地图以区域地图为例,新建表单,拖入地图(新特性)组件,地图边界选择区域地图下的中国(省级): 数据准备新建工作簿,添加数据集ds1,SELECT*FROM地图1,选中图表,选择图表

PHPCMS中GET标签概述、 get 标签语法、get 标签创建工具、get 调用本系统演示样例、get 调用其它系统演示样例

一.get 标签概述通俗来讲,get 标签是Phpcms定义的能直接调用数据库里面内容的简单化.友好化代码,她可调用本系统和外部数据,仅仅有你对SQL有一定的了解,她就是你的绝世好剑!也就是适合熟悉SQL语句的人使用.有了她,我们打造个性化的站点,能很方便的调用出数据库里面指定的内容.通过条件限制,我们能够调用出不同条件下的不同数据. 二.get标签样式 {get dbsource=" " sql=" "} {/get} 三.get 标签语法 1.get标签属性值