决策树扩展

之前写过决策树的一篇blog:http://blog.csdn.net/ice110956/article/details/10049149

这几天看数据挖掘导论发掘一些新的东西,记录下来。

过拟合问题

这是之前blog http://blog.csdn.net/ice110956/article/details/14002791引用Ng的一般误差与经验误差的关系。

可以看出,一般误差正比于VC维,反比于训练集大小(说法不太严格)。

过拟合就是第二项太大导致一般误差太大。

导论上关于一般误差的比喻比较好,引用一下:

假设关于球赛,有个评论员,随机猜测结果,也就是正确率为0.5。那么在10场比赛中至少猜对8场的概率为

很小。

但是,如果有50个这种评论员,那么其中有一个能至少猜中8场的概率是:

那么可以这么说,50个人中,至少有一个可以假装是很好的评论员。

同样的道理,当决策树划分到很小集合时,这些剩下的训练样本不同之处是很随机的,并且受噪音影响很大。也就是,我们这时做的任意决策,都带有随机猜测的性质。

虽然这个时候,我们认为决策得到训练误差很小,就像上面计算的90%的准确率,但是这也是随机猜测中取较好结果的假象而已。

真实的准确率还是随机猜测的结果。

简单说:越往细分,决策越没有概括性,趋向于随机猜测。训练准确率高,只是假象而已。

剪枝

决策树有几种剪枝法:

1.预剪枝:设定阈值

当划分到一定数量时,结束划分,取较多的一类样本标签作为此节点标签

2.后剪枝:整合节点

在决策树建立完成后,再整合节点,多个节点合并(小节点融合);常用节点与不常用节点合并(测试时较常访问的节点)

后剪枝一般比预剪枝有更好的效果,不过会更复杂,以及增加了计算复杂度。

纯度计算的几种方法

信息熵:ID3的计算方法

这二类情况下,三种纯度计算方法图形如下

可以看出,这三种方法的效果基本一致。实验也证明,这三种方法都有相似的结果。

决策树扩展

时间: 2024-08-28 17:48:10

决策树扩展的相关文章

欠拟合怎么解决

1.欠拟合:模型没有充分学习到数据集的特征,导致在训练集和测试集性能都很差的情况 2.解决办法: 1.增加其他特征项,可以通过"组合"."泛化"."相关性"等的操作来添加特征项 2.添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强 3.减少正则化参数 4.增加模型的复杂度,机器学习中SVM的核函数,决策树扩展分支,深度学习模型中增加网络的深度 5.增加训练次数 原文地址:https://w

决策树(回归树)分析及应用建模

一.CART决策树模型概述(Classification And Regression Trees) 决策树是通过一系列规则对数据进行分类的过程.它提供一种在什么条件下会得到什么值的类似规则的方法.??决策树算法属于有指导的学习,即原数据必须包含预测变量和目标变量.决策树分为分类决策树(目标变量为分类型数值)和回归决策树(目标变量为连续型变量).分类决策树叶节点所含样本中,其输出变量的众数就是分类结果:回归树的叶节点所含样本中,其输出变量的平均值就是预测结果.? 决策树是一种倒立的树结构,它由内

从决策树学习谈到贝叶斯分类算法、EM、HMM

从决策树学习谈到贝叶斯分类算法.EM.HMM 引言 近期在面试中,除了基础 &  算法 & 项目之外,经常被问到或被要求介绍和描写叙述下自己所知道的几种分类或聚类算法(当然,这全然不代表你将来的面试中会遇到此类问题,仅仅是由于我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西仅仅知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用,甚至以备将来经常回想思考.行文杂乱,但侥幸若能对读者起到一点帮助,则幸甚至哉. 本文借鉴和參考了两本书,

02. 基本分类(1):基于决策树的分类

分类技术 主要的分类技术 ? 基于决策树的方法 ? 基于规则的方法 ? 基于实例的方法 ? 贝叶斯信念网络 ? 神经网络 ? 支持向量机 分类的两个主要过程 训练/学习过程 预测/应用过程 决策树归纳 构建决策树的主要算法 - Hunt  (最早的决策树归纳算法之一) - CART  (较为复杂,只适用于小规模数据的拟合) - ID3   (无法处理数值属性,需要将数值属性进行离散化预处理) - C4.5  (ID3的升级版本,基本算法同ID3,可以处理数值属性) - SLIQ,SPRINT(主

《数据挖掘导论》 - 读书笔记(5) - 分类:基本概念、决策树与模型评估 [2016-8-21]

第4章 分类:基本概念.决策树与模型评估 分类任务就是确定对象属于哪个预定义的目标类.分类问题是一个普遍存在的问题,有许多不同的应用.例如:根据电子邮件的标题和内容检查出垃圾邮件,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据星系的形状对它们进行分析. 本章介绍分类的基本概念,讨论诸如模型的过分拟合等关键问题,并提供评估和比较分类技术性能的方法.尽管本章主要关注一种称作决策树归纳的技术,但是本章讨论的大部分内容也适用于其他的分类技术. 4.1 预备知识 分类任务的输入数据是记录的集合.每

机器学习经典算法详解及Python实现--决策树(Decision Tree)

(一)认识决策树 1,决策树分类原理 近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单.决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的.直观看上去,决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子).判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支). 如果不考虑效率等,那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上.实际上,样本所有特征中有一些特征

决策树-ID3

id3:无法直接处理数值型数据,可以通过量化方法将数值型数据处理成标称型数据,但涉及太多特征划分,不建议 决策树:的最大优点在于可以给出数据的内在含义,数据形式非常容易理解: 决策树介绍:决策树分类器是带有种植的流程图,终止块表示分类结果 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不明感,可以处理不相关的数据:可以将此分类器存储于硬盘上,是个持久化的分类器 缺点:可能会发生过度匹配问题 使用数据类型:数值型和标称型 knn:不便于展现数据的内在含义:每用一次都要学习,不是持久化分类器

【NLP】条件随机场知识扩展延伸

条件随机场知识扩展延伸 作者:白宁超 2016年8月3日19:47:55 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务中都有应用.本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用.成文主要源于自然语言处理.机器学习.统计学习方法和部分网上资料对CRF介绍的相关的相关,最后进行大量研究整理汇总成体系知识.文章布局如下:第一节介绍CRF相关的基础统计知识:第二节介绍基于自然语言角度的

机器学习二 -- 决策树学习

决策树学习 从今天开始,坚持每天学习一个机器学习的新知识,加油! 决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一颗决策树. 决策树表示法 决策树通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类.树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值.分类实例的方法是从这棵树的根节点开始,册数这个结点指定的属性,然后按照给定实例的该属性对应的树枝向下移动,然后这个过程再以