模式识别之基础---常用分类算法特性归纳

常用的分类算法主要有决策树,贝叶斯,KNN,SVM,神经网络以及基于规则的分类算法。

本文主要对各种分类算法的特性做一下总结。

1. 决策树算法

  • 决策树算法是一种构建分类模型的非参数方法,它不要求任何先验假设,不假定类和其他属性服从一定的概率分布。
  • 找到最佳决策树是NP完全问题,许多决策树算法都采取启发式的方法指导对假定空间的搜索。
  • 现有的决策树构建技术不需要昂贵的计算代价,即使训练集非常大,也可以快速建立模型。同时,决策树一旦建立,未知样本分类非常快,最坏情况下的时间复杂度为o(w),其中 w是树的最大深度。
  • 决策树相对容易理解,并且在很多数据集上,决策树的准确率可以与其他分类算法媲美。
  • 决策树是学习离散值函数的代表,但不能很好的推广到某些特定的布尔问题。
  • 决策树算法对噪声的干扰有很好的鲁棒性,当采用避免过分拟合的方法后尤其如此。
  • 冗余属性不会对决策树的准确率造成不利影响。
  • 由于大多数的决策树都采自顶向下的递归方式进行划分,因此沿着树向下,记录会越来越少。在叶节点,记录可能太少,对于叶节点代表的类,不能做出具有统计意义的判决,这就是所谓的数据碎片问题。解决该类问题的一种方法是,当样本数小于某个特定阈值时,停止分裂。
  • 子树可能在决策树中重复多次。当决策树的每个内部节点都依赖单个属性的测试条件时(相同的测试条件),就会出现这种情形。

2. 基于规则的分类器算法

  • 规则集的表达能力几乎等同于决策树,因为决策树可以用互斥和穷举的规则集表示。基于规则的分类器和决策树分类器都对属性空间进行直线划分,并将类指派到每个划分。
  • 基于规则的分类器通常被用来产生易于理解的描述性模型,而模型的性能可以与决策树媲美。
  • 基于规则的分类器使用的基于类的规则定序方法非常适用于处理类分布不平衡的数据集。

3. 最近邻分类算法(KNN)

  • 最近邻分类属于基于实例的学习技术,他使用具体的训练实例进行预测。
  • 最近邻分类属于消极学习方法,不必预先建立模型。但分类测试样例的开销却很大,因为需要逐个计算测试样例和训练样例之间的相似度。相反,积极学习方法通常需要花费大量计算资源来建立模型,模型一旦建立,分类测试样例就会非常快。
  • 最近邻分类器基于局部信息进行预测,因此他对噪声数据非常敏感。
  • 最近邻分类器可以生成任意形状的决策边界,这样的决策边界与决策树相比,能提供更加灵活的模型表示。

4. 朴素贝叶斯分类算法

  • 面对孤立的噪声点,贝叶斯分类器是健壮的,因为从数据中估计条件概率时,这些点被平均。
  • 通过在建模和分类时忽略样例,贝叶斯分类器可以处理属性值遗漏问题。
  • 面对无关属性,分类器是健壮的。如果x是无关属性,那么p(x|Y)几乎变成的均匀分布,x的条件概率不会对总的后验概率产生影响。
  • 相关属性会降低分类器的性能,因为这对于条件独立的假设不成立。

5. 贝叶斯信念网(BNN)

  • BNN提供了一种用图形模型来捕获特定领域的先验知识的方法。网络还可以对变量间的因果依赖关系进行编码。
  • 构造网络可能既费时又费力。然而一旦网络结构确定下来,新添加变量就十分容易。
  • BNN很适合处理不完整的数据,对有属性遗漏的实例可以通过对该属性的所有可能取值的概率求和或者求积分来加以处理。
  • 对过分拟合问题非常鲁棒。

因为对人工神经网络没有深入学习过,因此这里引用他人的总结。

人工神经网络

  • 至少含有一个隐藏层的多层神经网络是一种普适近似,即可以用来近似任何目标函数。由于ANN具有丰富的假设空间,因此对于给定的问题,选择合适的拓扑结构来防止模型的过分拟合是非常重要的。
  • ANN可以处理冗余特征,因为权值在训练过程中自动学习,冗余特征的权值非常小。
  • 神经网络对训练数据中的噪声非常敏感。
  • ANN权值学习使用的梯度下降方法经常会收敛到局部极小值。
  • 训练ANN是非常耗时的。

参考《数据挖掘导论》

http://www.pluscn.net/?p=1553

时间: 2024-10-13 00:33:15

模式识别之基础---常用分类算法特性归纳的相关文章

最基础的分类算法-k近邻算法 kNN简介及Jupyter基础实现及Python实现

k-Nearest Neighbors简介 对于该图来说,x轴对应的是肿瘤的大小,y轴对应的是时间,蓝色样本表示恶性肿瘤,红色样本表示良性肿瘤,我们先假设k=3,这个k先不考虑怎么得到,先假设这个k是通过程序员经验得到. 假设此时来了一个新的样本绿色,我们需要预测该样本的数据是良性还是恶性肿瘤.我们从训练样本中选择k=3个离新绿色样本最近的样本,以选取的样本点自己的结果进行投票,如图投票结果为蓝色:红色=3:0,所以预测绿色样本可能也是恶性肿瘤. 再比如 此时来了一个新样本,我们选取离该样本最近

【机器学习基础】机器学习算法的分类——关于如何选择机器学习算法和适用解决的问题

引子 系统的学习机器学习课程让我觉得受益匪浅,有些基础问题的认识我觉得是非常有必要的,比如机器学习算法的类别. 为什么这么说呢?我承认,作为初学者,可能无法在初期对一个学习的对象有全面而清晰的理解和审视,但是,对一些关键概念有一个初步并且较为清晰的认识,有助于让我们把握对问题的认识层次,说白了,就是帮助我们有目的的去学习心得知识,带着问题去学习,充满对解决问题的动力去实验,我觉得这种方式是有益并且良性的. 之前,我遇到过很多这方面的问题,可能出于对问题分析不够,在寻找解决的问题的方法或者模型的时

分类算法中常用的评价指标

本文来自网络,属于对各评价指标的总结,如果看完之后,还不是很理解,可以针对每个评价指标再单独搜索一些学习资料.加油~! 对于分类算法,常用的评价指标有: (1)Precision (2)Recall (3)F-score (4)Accuracy (5)ROC (6)AUC ps:不建议翻译成中文,尤其是Precision和Accuracy,容易引起歧义. 1.混淆矩阵 混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息.矩阵中的每一行代表实例的预测类别,每一列代表实例的真

数据挖掘中分类算法小结

数据挖掘中分类算法小结 数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强

二、锁的分类及特性

[转]锁的分类及特性 数据库锁定机制简单来说,就是数据库为了保证数据的一致性,而使各种共享资源在被并发访问时变得有序所设计的一种规则. 对于任何一种数据库来说都需要有相应的锁定机制,所以 MySQL 自然也不能例外. MySQL 数据库由于其自身架构的特点,存在多种数据存储引擎,每种存储引擎所针对的应用场景特点都不太一样. 为了满足各自特定应用场景的需求,每种存储引擎的锁定机制都是为各自所面对的特定场景而优化设计,所以各存储引擎的锁定机制也有较大区别. MySQL 各存储引擎使用了三种类型(级别

Extjs5.0从入门到实战开发信息管理系统(Extjs基础、Extjs5新特性、Spring、Spring mvc、Mybatis)视频教程

Extjs5.0从入门到实战开发信息管理系统(Extjs基础.Extjs5新特性.Spring.Spring mvc.Mybatis)视频教程下载   联系QQ:1026270010 Extjs作为一款优秀的JS前端开发框架以其良好的架构.丰富的UI组件库.完善的文档和社区支持等诸多优点拥有广泛的市场应用空间,开发人员无需过多的关注HTML.CSS甚至各种常用JS算法,只需把精力放在业务逻辑上,利用各种组件的相互组合调用便可轻松而高效的开发出系统的前端页面. Extjs5在之前版本的基础上又推出

常用MD5算法代码

常用的MD5算法代码日期: 2014年8月4日作者: 铁锚 MD5,全称为 Message Digest Algorithm 5(消息摘要算法第五版).详情请参考 维基百科:MD5 MD5加密后是一个字节数组, 但我们一般是取其十六进制的字符串表示法,当然,十六进制数字符串是区分大小写,在 mysql数据库,Java,和JavaScript语言中,一般是使用小写的字符串来表示, 而在 Oracle数据库官方提供的包中,返回的是大写字符串,这算是一个坑,如果你想要执行多次 md5,可能需要转换为小

常用推荐系统算法总结

一,常用推荐系统算法总结 1.Itemcf (基于商品的协同过滤) 这个算法是cf中的一种,也是当今很多大型网站都在采用的核心算法之一.对于商城网站(以Amazon为代表,当然也包括京东那种具有搞笑特色的推荐系统在内),影视类推荐,图书类推荐,音乐类推荐系统来说,item的增长速度远不如user的增长速度,而且item之间的相似性远不如user之间的相似性那么敏感,所以可以在离线系统中将item的相似度矩阵计算好,以供线上可以近乎即时地进行推荐.因为这种方法靠的是item之间的相关性进行推荐,所

转载:算法杂货铺——分类算法之决策树(Decision tree)

作者:张洋 算法杂货铺——分类算法之决策树(Decision tree) 2010-09-19 16:30 by T2噬菌体, 44346 阅读, 29 评论, 收藏, 编辑 3.1.摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法.这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断.在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree).相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际