《机器学习》西瓜书第四章决策树

本章主要对决策树算法进行了讲解，主要有决策树的生成过程、决策树的划分选择、决策树的剪枝处理、连续与缺失值的处理以及多变量决策树。

4.1 基本流程

决策树是基于树的结构来进行决策的。包含一个根节点、若干内部节点和若干叶节点。叶节点对应于决策结果，其他每个结点对应于一个属性测试。

决策树学习的目的是产生一颗泛化能力强的决策树，其基本流程遵循简单的“分而治之”策略。

决策树学习的基本算法

输入：训练集D = {(x₁,y₁),(x₂,y₂),...,(x_n,y_n)};

属性集 A = {a₁,a₂,...,a_d}

过程：函数TreeGenerate（D,A）

1.生成结点node;

if D中样本全属于同一类别C then

将node标记为C类叶节点；return；

end if;

if A = 空集 OR D中样本在A上取值相同 then

将node标记为叶节点，其类别标记为D中样本数最多的类；return

end if

从A中选择最有划分属性a_*;

for a* 的每一个值 a^v do

为node生成一个分支；令Dv表示D中在a*上取值为a^v的样本子集；

if Dv为空 then

将分支结点标记为叶节点，其类别标记为D中样本最多的类；return

else

以TreeGenerate（D_v,A\{a*}）为分支结点

end if

end for

输出：以node为根节点的一棵决策树。

4.2划分选择

我们希望决策树分支结点所包含的样本尽可能属于同一类别。

4.2.1 信息增益

“信息熵”-----度量样本纯度的指标，信息熵值越小，纯度越高。

原文地址：https://www.cnblogs.com/ttzz/p/11516628.html

时间： 2024-10-26 16:14:37

《机器学习》西瓜书第四章决策树的相关文章

西瓜书第四章决策树

读书笔记周志华老师的<机器学习> 4.1 基本流程一个决策树包含一个根结点.若干个内部结点和若干个叶结点:叶结点对应于决策结果,其他每个结点则对应于一个属性测试:每个结点包含的样本集合根据属性测试的结果被划分到子结点中:根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列. 决策树的生成是一个递归过程,在决策树基本算法中,有三种情形会导致递归返回:(1)当前节点包含的样本全属于同一类别,无需划分:(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分:把当前结点标

机器学习实战之第三章决策树（Decision Tree）

第3章决策树 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script> 决策树概述决策树(Decision Tree)算法主要用来处理分类问题,是最经常使用的数据挖掘算法之一. 决策树场景一个叫做 "二十个问题" 的游戏,游戏的规则很简单:参与游戏的一

《机器学习》西瓜书第七章贝叶斯分类器

先验概率:基于已有知识对司机事件进行概率预估,但不考虑任何相关因素. 后验概率:基于已有知识对随机事件进行概率预估,并考虑相关因素P(c|X). 7.1 贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法.贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记. 在样本x上的“条件风险”: 我们的任务是寻找一个判定准则h:以最小化总体风险贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择哪个能使条件风险R(c|x)最小的类别标记. h*称为贝叶斯最优分类器,与之对应的总

《机器学习》西瓜书第六章支持向量机

支持向量机分为:线性可分支持向量机.线性支持向量机.非线性支持向量机线性可分支持向量机:训练数据线性可分,通过硬间隔最大化,学习一个线性的分类器: 线性支持向量机:训练数据近似线性可分,通过软间隔最大化,学习一个线性分类器非线性支持向量机:训练数据线性不可分,通过使用核技巧以及软间隔最大化,学习一个非线性支持向量机. 6.1 间隔与支持向量在样本空间中,划分超平面课通过如下线性方程来描述: ωT x+ b = 0 其中ω = (ω1:ω2:...:ωd )为法向量,决定超平面的方向

西瓜书第三章线性模型

读书笔记周志华老师的<机器学习> 因为边看边记,所以写在随笔里,如果涉及版权问题,请您联系我立马删除,[email protected] 3.1 基本形式给定d个属性描述的示例 x = (x_1;x_2;...;x_3), 其中x_i是X在第i个属性上的取值,线性模型视图学得一个通过属性的线性组合来进行预测的函数,即 f(x) = w_1*x_1 + w_2*x_2 + ... + w_d*x_d + b, 向量形式其中 w = (w_1;w_2;...;w_d). w直观表达了各属性在

紫书第四章训练 UVA1589 Xiangqi by 15 周泽玺

Xiangqi is one of the most popular two-player board games in China. The game represents a battle between two armies with the goal of capturing the enemy's "general" piece. In this problem, you are given a situation of later stage in the game. Be

《机器学习实战》第3章决策树学习笔记

决策树从数据集合中提取出一系列的规则,这些规则可以用流程图表示,其数据形式非常容易理解:专家系统中就经常使用决策树. 1.决策树的构造:①采用ID3算法(最高信息增益)划分数据集:②递归创建决策树. 2.使用matplotlib的注解功能,可以将存储的树结构转化为容易理解的图形. 3.使用python的pickle模块可用于存储决策树的结构. 4.对于过度匹配的问题,可以通过裁剪树的手段来消除. 5.ID3算法适合处理标称型数据,如果是数值型数据,必须离散化. 6.还有其他的决策树算法,最流行的

《机器学习实战》第3章决策树程序清单3-1 计算给定数据集的香农熵calcShannonEnt()运行过程

from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) print("样本总数:" + str(numEntries)) labelCounts = {} #记录每一类标签的数量 #定义特征向量featVec for featVec in dataSet: currentLabel = featVec[-1] #最后一列是类别标签 if currentLabel not in labelCo

《机器学习》（周志华）第4章决策树笔记理论及实现——“西瓜树”

参考书籍:<机器学习>(周志华) 说明:本篇内容为读书笔记,主要参考教材为<机器学习>(周志华).详细内容请参阅书籍——第4章决策树.部分内容参考网络资源,在此感谢所有原创者的工作. ================================================================= 第一部分理论基础 1. 纯度(purity) 对于一个分支结点,如果该结点所包含的样本都属于同一类,那么它的纯度为1,而我们总是希望纯度越高越好,也就是