详解五大分类方法及其优缺点,数据挖掘师必会!

分类算法是一种在专家指导下的,有监督的数据挖掘方法,其种类很多,包括:

传统方法:线性判别法、距离判别法、贝叶斯分类器;

现代方法:决策树、神经网络ANN、支持向量机SVM;

1、决策树

决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中,推理出以决策树表示的分类规则。

2、贝叶斯

贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法

这些算法主要利用Bayes定理,来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。

由于贝叶斯定理的成立,本身需要一个很强的条件独立性假设前提,而此假设在实际情况中,经常是不成立的,因而其分类准确性就会下降。

为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(Tree Augmented Naive Bayes)算法,它是在贝叶斯网络结构的基础上,增加属性对之间的关联来实现的。

3、人工神经网络ANN

人工神经网络,是一种应用类似于大脑神经突触联接的结构,进行信息处理的数学模型。

在这种模型中,大量的节点(或称”神经元”,或”单元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。

神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。

训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。

神经网络已有上百种不同的模型,常见的有BP网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络)等。

4、kNN(k-近邻)

k-近邻(kNN,k-Nearest Neighbors)算法是一种基于实例的分类方法。

该方法就是找出与未知样本x,距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为哪一类。

k-近邻方法是一种懒惰学习方法,它存放样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的计算开销,因此无法应用到实时性很强的场合。

5、支持向量机SVM

支持向量机(SVM,Support Vector Machine)是Vapnik根据统计学习理论,提出的一种新的学习方法。

支持向量机(SVM,Support Vector Machine)的最大特点是:

根据结构风险最小化准则,以最大化分类间隔,构造最优分类超平面,来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。

对于分类问题,支持向量机算法根据区域中的样本,计算该区域的决策曲面,由此确定该区域中未知样本的类别。

在没有更多背景信息给出时,如果追求预测的准确程度,一般用支持向量机(SVM),如果要求模型可以解释,一般用决策树。

时间: 2024-07-31 17:14:43

详解五大分类方法及其优缺点,数据挖掘师必会!的相关文章

linux rm 命令详解及使用方法实战【初级】

rm:删除命令 前言: windows中的删除命令大家都不陌生,linux中的删除命令和windows中有一个共同特点,那就是危险,前两篇linux mkdir 命令详解及使用方法实战[初级]中我们就提到了rm命令,现在我们来详细介绍一下linux中删除文件和目录的命令, rm命令,rm是常用的命令,该命令的功能为删除一个目录中的一个或多个文件或目录,它也可以将某个目录及其下的所有文件及子目录均删除.对于链接文件,只是删除了链接,原有文件均保持不变. 名称 rm - remove files o

linux pwd 命令详解及使用方法实战【初级】

pwd:查看当前工作目录 前言: Linux中用 pwd 命令来查看”当前工作目录“的完整路径,就是经常提及的所在目录,多用在生产环境多级目录中查看当前所在路径,使用此命令能给运维人员/操作人员带来很多方便,当你不确定在什么目录下时即可直接键入此命令来进行“定位”. 上次分享的mkdir 命令详解及使用方法实战[初级]中提到过pwd当时只是简单的概括了一句,此处给大家详细讲解一下pwd使用方法,从而在将来的生产环境中更好的驾驭linux操作系统. 名称 pwd-print name of cur

linux mkdir 命令详解及使用方法实战【初级】

mkdir命令详解及使用方法实战 名称 MKDIR 是 make directories 的缩写 使用方法 mkdir [选项(如-p)] ...目录名称(及子目录注意用分隔符隔开)...    如使用mkdir建立一个多级目录则要使用-P命令 如: mkdir /lcp 是在根(/)目录下建立一个名为lcp的文件夹 mkdir -p /lcp/abc 则是在根(/)目录下建一个名为lcp的文件夹同时在此文件夹中建立名为abc的文件夹 描述 创建目录(IES),如果他们不存在. 长选项必须用的参

ListView使用详解,listActivity使用方法

OPhone开发中经常会用到各种各样的组件,像TextView,Button等等.其中经常会使用到ListView(列表),ListView以列表的形式展示具体内容,并且能够根据数据的长度自适应显示.本篇将由浅入深的介绍几种列表,并着重介绍如何自定义列表.具体的表现形式如图1所示.在OPhone系统中,列表的显示需要三个元素: 1.ListVeiw 用来展示列表的View. 2.适配器 用来把数据映射到ListView上的中介. 3.数据    具体的将被映射的字符串,图片,或者基本组件. 根据

AIX下PVID详解及其修改方法

AIX 下 PVID 详解及其修改方法 1.PVID 是什么 PVID 全称 physical volume identifier,它非常重要,相当于软序列号,当把一个磁盘变成 PV 时, 就生成了 PVID , PVID 是由机器序列号 (uname -m的前 8位 ) 和它生成的时间组成,这种机制保证了 PVID 的唯一性.当系统启动时,磁盘配置程序会寻找磁 盘上的 PVID ,并把它跟 ODM 库中的 PVID 信息进行比 对,如果在 ODM 中找到匹配的条目,则把和这个 PVID 相对应

LVS类型详解及其调度方法

1.LVS简介 LVS 是 Linux  Virtual Server ,Linux 虚拟服务器.可以实现LINUX平台下的简单负载均衡.一般来说,LVS采用三层结构:负载调度器.服务器池.共享存储.工作在TCP/IP协议的四层,其转发是依赖于四层协议的特征进行转发的,由于其转发要 依赖于协议的特征进行转发,因此需要在内核的TCP/IP协议栈进行过滤筛选,可想而知,这就需要在内核的模块来完成,而这样的过滤转发规则又是由管理员 进行定义的,所以,LVS就是两段式的架构设计,在内核空间中工作的是"i

Tomcat记录-tomcat常用配置详解和优化方法

常用配置详解 1 目录结构 /bin:脚本文件目录. /common/lib:存放所有web项目都可以访问的公共jar包(使用Common类加载器加载). /conf:存放配置文件,最重要的是server.xml. /logs:存放日志文件. /server/webapps:来管理Tomcat-web服务用的.仅对TOMCAT可见,对所有的WEB APP都不可见(使用Catalina类加载器加载). /shared/lib:仅对所有WEB APP可见,对TOMCAT不可见(使用Shared类加载

ThinkPHP函数详解:C方法

浏览:65531 发布日期:2012/09/14 分类:文档教程 关键字: 函数 C方法 C方法是ThinkPHP用于设置.获取,以及保存配置参数的方法,使用频率较高.了解C方法需要首先了解下ThinkPHP的配置,因为C方法的所有操作都是围绕配置相关的.ThinkPHP的配置文件采用PHP数组格式定义.由于采用了函数重载设计,所以用法较多,我们来一一说明下.设置参数 C('DB_NAME','thinkphp'); 表示设置DB_NAME配置参数的值为thinkphp,由于配置参数不区分大小写

ThinkPHP函数详解:session方法

Session方法用于Session 设置.获取.删除和管理操作. Session 用于Session 设置.获取.删除和管理操作 用法 session($name, $value='') 参数 name(必须):如果传入数组 则表示进行session初始化,如果传入null表示清空当前session,如果是字符串则表示session赋值.获取或者操作.Value(可选):要设置的session值,如果传入null表示删除session,默认为空字符串 返回值 见详(根据具体的用法返回不同的值)