02-22 决策树C4.5算法

目录

  • 决策树C4.5算法
  • 一、决策树C4.5算法学习目标
  • 二、决策树C4.5算法详解
    • 2.1 连续特征值离散化
    • 2.2 信息增益比
    • 2.3 剪枝
    • 2.4 特征值加权
  • 三、决策树C4.5算法流程
    • 3.1 输入
    • 3.2 输出
    • 3.3 流程
  • 四、决策树C4.5算法的优缺点
    • 4.1 优点
    • 4.2 缺点
  • 五、小结

更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

决策树C4.5算法

为了解决决策树ID3算法的不足,ID3算法的作者昆兰基于它的不足改进了决策树ID3算法。但是可能会有人有疑问,既然上一个决策树算法叫做ID3算法,为什么改进版本不叫做ID4或者ID5呢?因为当时决策树过于火爆,有人二次创新把ID4、ID5都用掉了,由此作者另辟蹊径把ID3算法的改进版本称为C4算法,后来C4算法又一次升级便有了现在的C4.5算法。

一、决策树C4.5算法学习目标

  1. 使用C4.5算法对连续特征值离散化
  2. 信息增益比
  3. 使用C4.5算法对特征值加权
  4. 决策树C4.5算法步骤
  5. 决策树C4.5算法优缺点

二、决策树C4.5算法详解

上一次说到决策树ID3算法有4个缺点,而这次作者也是基于这4个缺点改进了算法,也就是现在的C4.5算法。

假设现有一个训练集\(D\),特征集\(A\),训练集中有\(m\)个样本,每个样本有\(n\)个特征,我们通过该训练集聊一聊作者对C4.5算法做了哪些改进。

2.1 连续特征值离散化

ID3算法的第一个缺点:没有考虑到连续值的情况。

假设现有一个特征\(F\)的特征值为连续值,从大到小排序为\(f_1,f_2,\ldots,f_m\),C4.5算法对相邻样本间的特征值\(f_i,f_{i+1}\)取平均数,一共可以得到\(m-1\)个划分点,其中第\(j\)个划分点可以表示为
\[
S_j = {\frac {f_i + f_{i+1}} {2}}
\]
对于这\(m-1\)个划分点,分别计算以该点作为二元分类点的信息增益比,选择信息增益比最大的点作为该连续特征的二元离散分类点,把改点记作\(f_t\),则特征值小于\(f_t\)的点记作\(c_1\);特征值大于\(f_t\)的点记作\(c_2\),这样就实现了连续特征值的离散化。

2.2 信息增益比

ID3算法的第二个缺点:以信息增益作为划分训练数据集的特征,存在于偏向于选择取值较多的特征的问题。

信息增益作为标准容易偏向于取值较多的特征,因此可以使用信息增益比作为划分节点的标准。信息增益比的概念已经在《熵和信息增益》一文中介绍过,这里只给出公式
\[
g_R(D,A) = {\frac{g(D,A)}{H_A(D)}}
\]
由于特征越多的特征对应的特征熵\(H_A(D)\)越大,则信息增益比\(g_R(D,A)\)则会变小,因此可以校正信息增益容易偏向于取值较多的特征的问题。

2.3 剪枝

ID3算法的第三个缺点:没有考虑过拟合问题。

决策树一般采用剪枝的方法解决过拟合问题,剪枝的具体思路将在《CART树》一文中细讲。

2.4 特征值加权

ID3算法的第四个缺点:没有考虑特征中含有缺失值的情况。

假设某个特征\(F\)有2个特征值\(f_1,f_2\),先设定缺失\(F\)特征的样本\(D_i\)的关于特征\(F\)的特征值权重都为1,即\(f_1\)和\(f_2\)。假设\(2\)个特征值对应的无缺失值的样本个数为\(3\)和\(5\),现在把特征值\(f_1,f_2\)重新划入样本\(D_i\)中,在样本\(D_i\)中\(f_1\)的权重调节为\({\frac{3}{8}}\),\(f_2\)的权重调节为\({\frac{5}{8}}\),即样本\(D_i\)的特征\(F\)的特征值为\({\frac{3}{8}}*f_1和{\frac{5}{8}}*f_2\)。

计算样本\(D_i\)的特征\(F\)的信息增益比的时候,及计算\({\frac{3}{8}}*f_1\)和\({\frac{5}{8}}*f_2\)的信息增益比。

三、决策树C4.5算法流程

3.1 输入

假设现有一个训练集\(D\),特征集\(A\),阈值\(\epsilon\)。

3.2 输出

C4.5算法决策树。

3.3 流程

  1. 初始化信息增益的阈值\(\epsilon\)
  2. 如果\(D\)中的所有样本都属于同一类\(C_k\),则返回单节点树\(T\),标记类别为\(C_k\)
  3. 如果\(A\)为空集,则返回单节点树\(T\),标记类别为\(D\)中样本数最大的类\(C_k\)
  4. 计算\(A\)中各个特征对输出\(D\)的信息增益比,选择信息增益比最大的\(A_g\)
  5. 如果\(A_g\)小于阈值\(\epsilon\),则返回单节点数\(T\),标记类别为\(D\)中样本数最大的类\(C_k\)
  6. 如果\(A_g\)大于阈值\(\epsilon\),则按照特征\(A_g\)的不同取值\(A_{g_i}\)把\(D\)分割成若干个子集\(D_i\),每个子集生成一个子节点,子节点对应特征值为\(A_{g_i}\),递归调用\(2-6\)步,得到子树\(T_i\)并返回

四、决策树C4.5算法的优缺点

4.1 优点

  1. 理论清晰,方法简单
  2. 学习能力强

4.2 缺点

  1. 只能用于分类
  2. C4.5算法由于使用了熵的概念,即决策树的生成需要大量的熵值计算,并且如果特征值为连续值,还需要进行排序运算
  3. 使用模型较为复杂的多叉树结构

五、小结

决策树C4.5算法流程上和决策树ID3算法大相径庭,只是在决策树ID3算法上的某一步流程进行了优化,总而言之,它这种处理方式还是治标不治本的,并且还是无法处理回归问题。

接下来我们将要将一个改革意义的决策树,目前scikit-learn算法中以及集成学习中都使用该树作为目标决策树,即决策树CART算法。

原文地址:https://www.cnblogs.com/nickchen121/p/11686760.html

时间: 2024-10-13 19:18:54

02-22 决策树C4.5算法的相关文章

决策树-C4.5算法(三)

在上述两篇的文章中主要讲述了决策树的基础,但是在实际的应用中经常用到C4.5算法,C4.5算法是以ID3算法为基础,他在ID3算法上做了如下的改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足,公式为GainRatio(A): 2) 在树构造过程中进行剪枝: 3) 能够完成对连续属性的离散化处理: 4) 能够对不完整数据进行处理. C4.5算法与其它分类算法如统计方法.神经网络等比较起来有如下优点:产生的分类规则易于理解,准确率较高.其缺点是:在构造树的过

决策树 -- C4.5算法

C4.5是另一个分类决策树算法,是基于ID3算法的改进,改进点如下: 1.分离信息 解释:数据集通过条件属性A的分离信息,其实和ID3中的熵: 2.信息增益率 解释:Gain(A)为获的A的信息增益,C4.5中选择具有最大增益率的属性作为分裂属性: 3.C4.5中所采用的悲观剪枝法 解释:数据的内容,还没有特别理解,之后补上. 相较ID3的改进: 1.用信息增益率来选择属性,克服了使用信息增益选择属性时偏向选择取值多的属性的不足: 2.在数构造过程中进行剪枝: 3.能够完成对连续属性的离散化处理

决策树-预测隐形眼镜类型 (ID3算法,C4.5算法,CART算法,GINI指数,剪枝,随机森林)

1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26. 女儿:长的帅不帅? 母亲:挺帅的. 女儿:收入高不? 母亲:不算很高,中等情况. 女儿:是公务员不? 母亲:是,在税务局上班呢. 女儿:那好,我去见见. 决策过程: 这个女孩的决策过程就是典型的分类树决策.

决策树之C4.5算法学习

决策树<Decision Tree>是一种预测模型,它由决策节点,分支和叶节点三个部分组成.决策节点代表一个样本测试,通常代表待分类样本的某个属性,在该属性上的不同测试结果代表一个分支:分支表示某个决策节点的不同取值.每个叶节点代表一种可能的分类结果. 使用训练集对决策树算法进行训练,得到一个决策树模型,利用模型对未知样本(类别未知)的类别判断时,从决策树根节点开始,从上到下搜索,直到沿某分支到达叶节点,叶节点的类别标签就是该未知样本的类别. 网上有个例子可以很形象的说明利用决策树决策的过程(

机器学习总结(八)决策树ID3,C4.5算法,CART算法

本文主要总结决策树中的ID3,C4.5和CART算法,各种算法的特点,并对比了各种算法的不同点. 决策树:是一种基本的分类和回归方法.在分类问题中,是基于特征对实例进行分类.既可以认为是if-then规则的集合,也可以认为是定义在特征空间和类空间上的条件概率分布. 决策树模型:决策树由结点和有向边组成.结点一般有两种类型,一种是内部结点,一种是叶节点.内部结点一般表示一个特征,而叶节点表示一个类.当用决策树进行分类时,先从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到子结点.而

C4.5算法总结

C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法.它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类.C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类. C4.5由J.Ross Quinlan在ID3的基础上提出的.ID3算法用来构造决策树.决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存

基于单层决策树的AdaBoost算法源码

基于单层决策树的AdaBoost算法源码 Mian.py 1 # -*- coding: utf-8 -*- 2 # coding: UTF-8 3 4 import numpy as np 5 from AdaBoost import AdaBoost 6 from sklearn.model_selection import train_test_split 7 from sklearn.metrics import accuracy_score 8 9 def main(): 10 11

C4.5算法

C4.5是一套用来处理分类问题的算法,属于有监督学习的类型,每个实例由一组属性来描述,每个实例仅属于一个类别. 如下是一个数据集 算法的发展历史 J.Ross Quinlan设计的C4.5算法源于名为ID3的一种决策树诱导算法. 而ID3是迭代分解器(iterative dichotomizers)系列算法的第3代. 除了可以分类之外,C4.5还可以具有良好可理解性的规则. Friedman的Original Tree算法. Breiman,Olshen和Stone的呢个人参与下发展为CART算

决策分类树算法之ID3,C4.5算法系列

一.引言 在最开始的时候,我本来准备学习的是C4.5算法,后来发现C4.5算法的核心还是ID3算法,所以又辗转回到学习ID3算法了,因为C4.5是他的一个改进.至于是什么改进,在后面的描述中我会提到. 二.ID3算法 ID3算法是一种分类决策树算法.他通过一系列的规则,将数据最后分类成决策树的形式.分类的根据是用到了熵这个概念.熵在物理这门学科中就已经出现过,表示是一个物质的稳定度,在这里就是分类的纯度的一个概念.公式为: 在ID3算法中,是采用Gain信息增益来作为一个分类的判定标准的.他的定