机器学习中分类与聚类的本质区别

机器学习中分类与聚类的本质区别

机器学习中有两类的大问题,一个是分类,一个是聚类

在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。

分类

分类有如下几种说法,但表达的意思是相同的。

  • 分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。
  • 分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。
  • 分类:通过学习来得到样本属性与类标号之间的关系。

    用自己的话来说,就是我们根据已知的一些样本(包括属性与类标号)来得到分类模型(即得到样本属性与类标号之间的函数),然后通过此目标函数来对只包含属性的样本数据进行分类。

分类算法的局限

分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

聚类

聚类的相关的一些概念如下

  • 而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,这在机器学习中被称作 unsupervised learning (无监督学习)
  • 通常,人们根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。
  • 聚类的目标:组内的对象相互之间时相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。

分类与聚类的比较

  • 聚类分析是研究如何在没有训练的条件下把样本划分为若干类。
  • 在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。
  • 聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量(例如:距离)为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。
  • 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记。

要说明内容

因为最近在研究者两种算法,也就刚好用来说一下分类和聚类不同的算法。

SVM与二分K均值算法的区别之一:支持向量机(SVM)是一种分类算法,二分k均值算法属于一种聚类算法。

在《数据挖掘导论(完整版)》这本书第306页中有这样一句话:聚类可以看做一种分类,它用类标号创建对象的标记,然而只能从数据导出这些标号。相比之下,前面所说的分类是监督分类(supervised classification):即使用有类标号已知的对象开发的模型,对新的、无标记的对象赋予类标号。为此,有时称聚类分析为非监督分类(unsupervised classification)。在数据挖掘中,不附加任何条件使用术语分类时,通常是指监督分类。

因此,SVM与二分K均值算法的区别之一:支持向量机(SVM)是一种监督分类算法,二分k均值算法属于一种非监督分类算法

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-07 12:44:41

机器学习中分类与聚类的本质区别的相关文章

支付宝接入文档中TRADE_SUCCESS和TRADE_FINISHED的本质区别

之前一直不知道这2种状态到底有什么不同.支付宝中担保交易和即时到账交易对其的描述为: TRADE_SUCCESS  交易成功(或支付成功) TRADE_FINISHED    交易完成 一头雾水......OK,找例子来说明吧: 例子一: 即时到账普通版.   普通版不支持支付完成后的退款操作,即用户充值完成后,该交易就算是完成了,这笔交易就不能再做任何操作了. 即时到账高级版.   这个版本在用户充值完成后,卖家可以执行退款操作进行退款,即该交易还没有彻底完成,卖家还可以修改这笔交易. OK,

机器学习中---分类模型--决策树模型

决策树模型 决策树(DecisionTree, DT)是一种常见的用于分类和回归的非参数监督学习方法,目标是创建一个模型,通过从数 据特性中推导出简单的决策规则来预测目标变量的值.决策树模型的优点在于:1,简单容易理解,数据结构可以可视化表达.2,需要很少的数据准备,其他技术通常需 要数据标准化,需要创建虚拟变量,并删除空白值.3,能够处理多输出问题. 决策树模型的缺点在于:1,决策树学习可能会生成过于复杂的数结构,不能代表普遍的规则,即模型容易过拟 合,修剪机制,设置叶子节点所需的最小样本数目

机器学习中分类问题

regression与线性回归(linear regression) 线性回归(linear regression): 有监督学习 => 学习样本为D={(xi,yi)}a 输出/预测的结果yi为连续值变量 需要学习映射f:x-y 假定输入x和输出y之间有线性相关关系   损失函数(loss function) 我们要找到最好的权重/参数Θ 怎么去衡量"最好"? 定义损失函数 最小化损失函数 梯度下降(Gradient descend) 逐步最小化损失函数的过程 如同下山,找准方

VS中的Debug 和 Release 编译方式的本质区别

VS中的Debug 和 Release 编译方式的本质区别 Debug 通常称为调试版本,它包含调试信息,并且不作任何优化,便于程序员调试程序.Release 称为发布版本,它往往是进行了各种优化,使得程序在代码大小和运行速度上都是最优的,以便用户很好地使用. Debug 和 Release 的真正秘密,在于一组编译选项.下面列出了分别针对二者的选项(当然除此之外还有其他一些,如/Fd /Fo,但区别并不重要,通常他们也不会引起 Release 版错误,在此不讨论) 以下参数均是在project

机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?

原文:http://www.zhihu.com/question/27068705 机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?修改 最近在学习机器学习,在学到交叉验证的时候,有一块内容特别的让我困惑,Error可以理解为在测试数据上跑出来的不准确率 ,即为 (1-准确率). 在训练数据上面,我们可以进行交叉验证(Cross-Validation).一种方法叫做K-fold Cross Validation (K折交叉验证), K折交叉验证,初始

单例中懒汉和饿汉的本质区别

单例中懒汉和饿汉的本质区别在于以下几点: 1.饿汉式是线程安全的,在类创建的同时就已经创建好一个静态的对象供系统使用,以后不在改变.懒汉式如果在创建实例对象时不加上synchronized则会导致对对象的访问不是线程安全的. 2.从实现方式来讲他们最大的区别就是懒汉式是延时加载,他是在需要的时候才创建对象,而饿汉式在虚拟机启动的时候就会创建,饿汉式无需关注多线程问题.写法简单明了.能用则用.但是它是加载类时创建实例(上面有个朋友写错了).所以如果是一个工厂模式.缓存了很多实例.那么就得考虑效率问

对宏观的力学中连续介质假设的理解,以及对流体力学中平均速度的理解,以及流体与固体在力学上的本质区别

对宏观的力学中连续介质假设的理解:宏观的力学(如流体力学.弹塑性力学等)研究的对象是大量分子的集合,这时候每个集合构成一个个小微元体,整个对象就是由这无数个小微元体连续无间隙地构成.因为我们只需要关注每个集合上对象的性质,如密度.速度.应力.形变等,不需要进入集合内部去探寻分子间的作用力,所以每一个集合都可以看作是连续无间隙的,这样反映出的宏观性质与真实物体的宏观性质是一样的.只不过做数值积分或划分网格时dx.dy.dz等空间尺寸的自变量微分应当远大于该物质的分子平均自由行程,否则集合中的物理性

机器学习中的目标函数、损失函数、代价函数有什么区别?

作者:zzanswer链接:https://www.zhihu.com/question/52398145/answer/209358209来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 谢谢评论区 @阿萨姆 老师的建议,完善下答案: 首先给出结论:损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function). 举个例子解释一下:(图片来自Andrew Ng Machine

机器学习中目标函数、损失函数、代价函数之间的区别和联系

首先给出结论:损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数(loss function) 举个例子解释一下:(图片来自Andrew Ng Machine Learning公开课视频) 上面三个图的函数依次为 , , .我们是想用这三个函数分别来拟合Price,Price的真实值记为 .我们给定 ,这三个函数都会输出一个 ,这个输出的 与真实值 可能是相同的,也可能是不同的,为了表示我们拟合的好坏,我们就用一个函数来度量拟