监督式学习 -- 分类决策树(一)

决策树(decision tree)是一种基本的分类与回归方法。

其表示的树型结构,能够觉得是if-else规则的集合。基本的长处是分类可读性好,速度快。

一般会有三个步骤:特征选择、决策树的生成和决策树的修剪。

决策树由结点(node)和有向边(directed edge)组成。结点有两类:内部结点(表示一个特征或者属性)和叶节点(表示一个类或者决策结果)。决策树学习样本集,学习的目标是依据给定的训练数据集构建决策树模型。可以对測试集以及实例进行正确的分类。通常默认。训练集和測试集拥有同样或近似的分布概率模型。

从全部可能的决策树中选取最优决策树是NP全然问题,所以通常採用启示式方法。近似求解这一最优问题。得到的决策树是次最优(sub-optimal)。

因为决策树表示一个条件概率分布,所以深浅不同的决策树相应复杂度不同的概率模型。决策树的生成仅仅考虑局部最优(贪心算法),决策树的剪枝则考虑全局最优。

信息增益和信息增益率

特征选取在于选择对训练数据集具有分类能力的特征,这样能够提高决策树的学习效率。

假设一个特征进行分类的结果与随机分类的结果没有非常大的差别,那这个特征的分类能力非常差或者差点儿没有。

1)信息熵

信息熵是信息论中的基本概念。信息论由Shannon于1948年提出并发展起来,用于解决信息传递过程中的问题,也称统计通信理论。它觉得:

1、信息传递由信源、信道和信宿组成。

2、传递系统存在于一个随机干扰环境中,因此传递系统对信息的传递是随机误差的。假设把发送信息记为U而接收到信息记 V,由信道可记为通信模型。为P(U|V)。

信道模型是一个条件概率矩阵P(U|V)。

在实际通信前。信宿信源会发出什么信息不可能知道。称为信宿对信源状态具有不确定性,因为这样的不确定性是发生在通信之前的。故称为先验不确定性。

在收到信息后的不确定性。称为后验不确定性。

信息是指对不确定性的消除。

Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”。并给出了计算信息熵的数学表达式。变量的不确定性越大,熵也就越大,把它搞清楚所须要的信息量也就越大。

信息熵是信息论中度量信息量的一个概念。

一个系统越有序,它的信息熵越小;反之。一个混乱的系统信息熵越大。能够觉得,信息熵是系统有序化程度的一个度量。

2)信息增益

信息熵又称为先验熵,是在信息发送前信息量的数学期望。后验熵指在信息发送后,从信宿角度对信息量的数学期望。一般先验熵大于后验熵,先验熵与后验熵估差,即所谓的信息增益,反映的是信息消除随机不确定性的程度。

决策树学习中的信息增益等价于训练集中类与特征的互信息。

表示因为特征A而导致训练集不确定性的降低量。信息增益也。特征A对训练集D的信息增益g(D, A)。定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差:

3)信息增益率

信息增益值得大小是相对训练集而言。并没有绝对的意义。

举一个样例。火车的速度能在9s内从10m/s加速到100m/s,可是如今有一辆摩托车能在1s内从1m/s加速到11m/s,尽管加速后摩托车的速度不如火车,可是它拥有和火车等同的加速能力!

在训练集的经验熵大的时候,信息增益值也会偏大,反之信息增益值会偏小。不能反映真实的不确定改善能力。使用信息增益率(information gain ratio)能够对这一问题进行校正。

特征A对训练集D的信息增益率gainRatio(D, A)。定义为其信息增益g(D, A)与训练数据集D的经验熵H(D)之比:

决策树学习之ID3算法

ID3算法是决策树算法的一种。想了解什么是ID3算法之前。我们得先明确一个概念:奥卡姆剃刀(Occam‘sRazor, Ockham‘s Razor),是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)提出。他在《箴言书注》2卷15题说“切勿浪费较多东西。去做‘用较少的东西,相同能够做好的事情’。简单点说。便是:be simple。因此。越是小型的决策树越优于大的决策树(be simple简单理论)。

ID3算法的实现思想:

1)自顶向下贪婪遍历决策树空间以构造决策树。

2)计算单独特征属性分类训练样本集的能力,选取分类能力最好的一个属性(最佳属性)作为决策树的根节点,以此表示该属性相比其他属性拥有更强的区分能力。

3)对于根节点属性可能产生的每一种可能构建一个分支,再次遍历样本集将其划分到不同分支。

4)递归的对每一个分支反复2)、3)。直到出现叶子节点。也即分支下仅仅有预測的结果。

ID3相当于用极大似然法进行概率模型的选择。

C4.5算法:ID3算法的改进

既然说C4.5算法是ID3的改进算法,那么C4.5相比于ID3改进的地方有哪些呢?

1)用信息增益率来选择属性。ID3选择属性用的是子树的信息增益。这里能够用非常多方法来定义信息,ID3使用的是熵(entropy。熵是一种不纯度度量准则)。也就是熵的变化值,而C4.5用的是信息增益率。

对,差别就在于一个是信息增益,一个是信息增益率。

2)在树构造过程中进行剪枝。在构造决策树的时候,那些挂着几个元素的节点,easy导致overfitting。

3)对非离散数据也能处理。可以对不完整数据进行处理。

决策树使用于特征取值离散的情况,连续的特征一般也要处理成离散的(而非常多文章没有表达出决策树的关键特征or概念)。实际应用中。决策树overfitting比較的严重,一般要做boosting。分类器的性能上不去。非常基本的原因在于特征的鉴别性不足,而不是分类器的好坏,好的特征才有好的分类效果。分类器仅仅是弱相关。

决策树的剪枝

决策树生成算法递归的产生决策树,知道不能继续下去为止,这样产生的决策树往往对训练集非常准确,但对于未知的測试集数据分类却不一定有那么准确,这就是过拟合(overfitting)现象。过拟合的原因在于:学习时过多的优化其高训练集的正确分类,构建的决策树过于复杂。而要解决问题必须简化决策树

在书中学习的一种简单的剪枝算法:通过极小化决策树的损失函数(loss function)来实现,

树的剪枝算法:输入(生成算法产生的整个树T,參数a),输出(修剪后的子树Ta)

1)计算每一个结点的经验熵。

2)递归的从树的叶子结点向上回缩。

如果一组叶子结点回缩到其父节点之前和之后的损失函数值各自是。且

则应该进行剪枝,使得该父节点成为新的叶节点。

3)反复2)直至不能继续为止,得到损失函数最小的子树Ta。

整个算法能够用动态规划算法实现(DP)?(有待兴许进一步考虑)

总结:主要是一些决策树学习的基础知识,兴许深入学习必需要代码,动手实现才是王道。

camefrom:鱼萌_幸福路

时间: 2025-01-04 05:40:29

监督式学习 -- 分类决策树(一)的相关文章

半监督式学习(维基百科)

以下的内容摘自维基百科semi-supervised learning.用来对半监督学习进行一个概念性的直观体验. Semi-supervised learning is a class of supervised learning tasks and techniques that also make use of unlabeled data for training - typically a small amount of labeled data with a large amount

学习分类文本

监督式分类 性别鉴定 答下列问题: (1)怎样才能识别出语言数据中明显用于分类的特征? (2)怎样才能构建用于自动执行语言处理任务的语言模型? (3)从这些模型中我们可以学到哪些关于语言的知识? 决策树,朴素贝叶斯分类器和最大熵(shang)分类 一 监督式分类 #性别鉴定 def gender_features(word): return {'last_letter': word[-1]} 原文地址:https://www.cnblogs.com/nxf-rabbit75/p/9534316.

【转载】 无监督特征学习——Unsupervised feature learning and deep learning

无监督特征学习——Unsupervised feature learning and deep learning 分类: Compression Computer Vision Machine Learning 杂感2012-07-31 15:48 36848人阅读 评论(61) 收藏 举报 目录(?)[+] 无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accurac

决策树学习基决策树学习基本算法

决策树学习基本算法 输入:训练集; ???? 属性集. 过程:函数 1: 生成结点node; 2: if 中样本全属于同一类别 then 3: ????将node标记为类叶结点; return 4: end if 5: if 中样本在上取值相同 then 6: 将node标记为叶结点,其类别标记为中样本数最多的类; return 7: end if 8: 从中选择最优化分属性 9: for 的每一个值 do 10: 为node生成一个分支; 令表示中在上取值为的样本子集; 11:???? if

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树

摘要: Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理.决策树创建过程分析了信息混乱度度量Gini指数.连续和离散特征的特殊处理.连续和离散特征共存时函数的特殊处理和后剪枝:用于回归时则介绍了回归树和模型树的原理.适用场景和创建过程.个人认为,回归树和模型树

带监督的文本分类算法FastText

该算法由facebook在2016年开源,典型应用场景是"带监督的文本分类问题". 模型 模型的优化目标如下: 其中,$<x_n,y_n>$是一条训练样本,$y_n$是训练目标,$x_n$是normalized bag of features.矩阵参数A是基于word的look-up table,也就是A是词的embedding向量.$Ax_n$矩阵运算的数学意义是将word的embedding向量找到后相加或者取平均,得到hidden向量.矩阵参数B是函数f的参数,函数f

扫盲记-第四篇--弱监督深度学习的图像分割

学习内容来源于网络 原创见 微信公众号: 有三AI  https://mp.weixin.qq.com/s/USOWECXk_az4b6eTssfOBw 基于弱监督深度学习的图像分割方法 本文主要介绍基于深度学习的图像分割方法,即语义分割.实例分割和全景分割. 1 基础概念 生活中,我们和周围的事物都是有“标签”的,比如人.杯子.天空等等.在不同的场景下,相同的事物可能对应了不同的标签,比如长在地上的一片小草称为“草地”,长在花盆里的很可能属于“盆栽”,画在画中的又属于“装饰”. 如果把整幅图像

任务激励式学习法

如果你不喜欢学习,或者觉得学习是件困难的事情,那么有一种办法让你爱上学习,那就是“任务激励式学习”法.将要学习的技能分解为一系列难度渐增的任务,像做游戏一样完成任务,做完任务后祝贺自己奖励自己,不知不觉就学到新技能啦.为什么传统教学不招人喜?因为传统教学采用了“惩罚式”的思路,即做不好会受责备做好了却毫无表示:游戏正好采取“激励式”的思路:做好了给予一定奖励做不好重新再来.你说哪种方式更容易为天性就爱玩的孩子们接受呢?说到底,就是家长没耐心陪孩子还要责怪孩子不用功. 心理学原理: 进步能够给人带

项目中走马观花式学习PHP

项目中走马观花式学习PHP 因项目缘故,需要快速补充php知识,个人有asp基础,较熟悉aspx.c#winform编写,故选择了快速阅读PHP相关资料.整理了一下,给大家参考.阅读的资料都是来自网络,我也不说不清作者是谁了,这里要对带我们这些菜鸟飞的前辈和大神们表示感谢.此外和我一样学过asp的朋友请百度一下php和asp语法的不同,对自己帮助很大. 第一部分相关知识补充 一.PHP准备工作 (一)PHP环境搭建(略) 建议使用apm,修改相关的参数即可搭建好环境.详情随便百度一下.... 第