决策树归纳一般框架(ID3,C4.5,CART)

感性认识决策树

构建决策树的目的是对已有的数据进行分类,得到一个树状的分类规则,然后就可以拿这个规则对未知的数据进行分类预测。

决策树归纳是从有类标号的训练元祖中学习决策树。

决策树是一种类似于流程图的树结构,其中每个内部节点(非树叶结点)表示一个属性上的测试,每个分支代表该测试上的一个输出,而每个树叶结点(或终端结点)存放一个类标号。树的最顶层结点是根结点。一个典型的决策树如下图所示,

该决策树是通过下表所示的训练元组和它们对应的类标号得到的,

为什么决策树如此流行

决策树分类器的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。决策树可以处理高维数据。获取的知识用树的形式表示是直观的,并且容易被人理解。决策树归纳的学习和分类步骤是简单和快速的。一般而言,决策树分类器具有很好的准确率。然而,成功的使用可能依赖手头的数据。决策树归纳算法已经成功应用于多个领域的分类,如医学、制造和生产、金融分析、天文学和分子生物学等。决策树归纳是需要商业规则归纳系统的基础。

决策树归纳

决策树归纳是一个一般的算法框架,根据选择属性准则的不同有三种不同的算法(应该不止这三种):ID3、C4.5、CART。其中C4.5是ID3的提出者对ID3的一种改进,ID3(20世纪70年代后期到20世纪80年代初期)和CART(1984年)大约同时独立的发明,这两个基础算法引发了决策树归纳的风潮。

ID3、C4.5、CART都采用贪心(即非回溯的)方法,决策树以自顶向下递归的分治方式构造。随着树的构建,训练集递归地划分成较小的子集。

基本决策树归纳算法伪代码如下图所示,

伪代码写的还是比较清楚的,详细的步骤说明就不罗列出来了,想了解更多参看《数据挖掘概念与技术(第3版)》214页-216页。

ID3、C4.5、CART

这三种不同的决策树构造方法我们都会进行Java实现,详情见后边的文章。

ID3:http://blog.csdn.net/zhyoulun/article/details/42268413

C4.5:

CART:

参考:《数据挖掘概念与技术(第3版)》

转载请注明出处:http://blog.csdn.net/zhyoulun/article/details/41978381

时间: 2024-08-26 00:08:37

决策树归纳一般框架(ID3,C4.5,CART)的相关文章

决策树(ID3,C4.5,CART)原理以及实现

决策树 决策树是一种基本的分类和回归方法.决策树顾名思义,模型可以表示为树型结构,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布. [图片上传失败...(image-2e6565-1543139272117)] 决策树的中间节点可以看做是对一种特征的判断,也是符合上一次判断特征某种取值的数据集,根节点代表所有数据集;叶子节点看做是判断所属的类别. 决策树学习通常包括3个步骤: 特征选择. 决策树生成和决策树剪枝. 目前常用的决策树算法有ID3, C4.5 和C

《机器学习实战》基于信息论的三种决策树算法(ID3,C4.5,CART)

============================================================================================ <机器学习实战>系列博客是博主阅读<机器学习实战>这本书的笔记,包含对其中算法的理解和算法的Python代码实现 另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言 如需转载请注明出处,谢谢 ======================================

决策树分类算法(ID3)

1. 什么是决策树/判定树(decision tree)? 判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布.树的最顶层是根结点. 2.  机器学习中分类方法中的一个重要算法 3.  构造决策树的基本算法 3.1 熵(entropy)概念: 信息和抽象,如何度量? 1948年,香农提出了 "信息熵(entropy)"的概念 一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,

决策树归纳算法解析之ID3

学习是一个循序渐进的过程,我们首先来认识一下,什么是决策树.顾名思义,决策树就是拿来对一个事物做决策,作判断.那如何判断呢?凭什么判断呢?都是值得我们去思考的问题. 请看以下两个简单例子: 第一个例子 现想象一个女孩的母亲要给自己家的闺女介绍男朋友,女孩儿通过对方的一些情况来考虑要不要去,于是有了下面的对话: 女儿:多大年纪了?       母亲:26.       女儿:长的帅不帅?       母亲:挺帅的.       女儿:收入高不?       母亲:不算很高,中等情况.      

决策树归纳(ID3属性选择度量)Java实现

一般的决策树归纳框架见之前的博文:http://blog.csdn.net/zhyoulun/article/details/41978381 ID3属性选择度量原理 ID3使用信息增益作为属性选择度量.该度量基于香农在研究消息的值或"信息内容"的信息论方面的先驱工作.该结点N代表或存放分区D的元组.选择具有最高信息增益的属性作为结点N的分裂属性.该属性使结果分区中对元祖分类所需要的信息量最小,并反映这些分区中的最小随机性或"不纯性".这种方法使得对一个对象分类所需

决策树系列(四)——C4.5

预备知识:决策树.ID3 如上一篇文章所述,ID3方法主要有几个缺点:一是采用信息增益进行数据分裂,准确性不如信息增益率:二是不能对连续数据进行处理,只能通过连续数据离散化进行处理:三是没有采用剪枝的策略,决策树的结构可能会过于复杂,可能会出现过拟合的情况. C4.5在ID3的基础上对上述三个方面进行了相应的改进: a)  C4.5对节点进行分裂时采用信息增益率作为分裂的依据: b)  能够对连续数据进行处理: c)  C4.5采用剪枝的策略,对完全生长的决策树进行剪枝处理,一定程度上降低过拟合

C4.5,CART,randomforest的实践

#################################Weka-J48(C4.5)################################# ##############################R语言:C4.5###################################### ###############################C5.0############################# data(churn) treeModel <- C5

(二)《机器学习》(周志华)第4章 决策树 笔记 理论及实现——“西瓜树”——CART决策树

CART决策树 (一)<机器学习>(周志华)第4章 决策树 笔记 理论及实现--"西瓜树" 参照上一篇ID3算法实现的决策树(点击上面链接直达),进一步实现CART决策树. 其实只需要改动很小的一部分就可以了,把原先计算信息熵和信息增益的部分换做计算基尼指数,选择最优属性的时候,选择最小的基尼指数即可. #导入模块 import pandas as pd import numpy as np from collections import Counter #数据获取与处理

【Machine Learn】决策树案例:基于python的商品购买能力预测系统

决策树在商品购买能力预测案例中的算法实现 作者:白宁超 2016年12月24日22:05:42 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结合视频学习和书籍基础的笔记所得.本系列文章将采用理论结合实践方式编写.首先介绍机器学习和深度学习的范畴,然后介绍关于训练集.测试集等介绍.接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树.临近取样.支持向量机.神经网络算法)监督学习之回归(线性回归.非线性回归)非监督学习(