机器学习（五）-决策树和随机森林

这节课终于不是那么迷糊了，如果100分满分的话，听懂程度有70分了，初学者就是这么容易满足。 :| 老师说这是这20次课里最简单的一次。。。oh。。。no。

不废话了，接着记笔记吧。

CART：classsification and regression tree

三种决策树：ID3，C4.5，CART

树是最重要的数据结构。

决策树示意图：

决策树最重要的知识点：

决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零。此时每个叶节点中的实例都属于同一类。

算法最大的优点是可以自学习。不需要使用者了解过多知识背景，只需要对训练实例进行较好的标注，就能够进行学习。属于有监督学习。

从一类无序、无规则的事物中推理决策树表示的分类规则。

建立决策树的关键：即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数，建立决策树主要有以下三种算法：ID3,C4.5,CART.

经验熵：由数据估计概率得到的熵。

经验条件熵：有数据估计概率得到的条件熵。

信息增益：得知特征A的信息而使类X的信息的不确定性减少的程度。

剪枝是为了防止过拟合，提高泛化能力。（为了适应测试）

分为前剪枝和后剪枝。

前剪枝：比如约束树的高度，叶子节点的个数。

后剪枝：树建好了以后再以某种标准进行剪枝。

Bagging：

可以加权。

最后邹老师的总结。

*********************************************分割线*********************************************

现在回过头来，看开头说听懂了70%说高了。555555555555555555555555.............不灰心，不放弃。下午更新最爱的SVM。不知道看了几遍了，看能总结成什么样吧。

时间： 2024-10-10 23:00:17

机器学习（五）-决策树和随机森林的相关文章

机器学习与人工智障(5):决策树与随机森林

一.从LR到决策树 1.总体流程与核心问题 (1)决策树是基于树的结构进行决策: 每个"内部节点"对应于某个属性上的"测试" 每个分支对应于该测试的一种可能结果(即该属性上的每个取值) 每个叶节点对应于一个预测结果 (2)学习过程:通过对训练样本的分析来确定"划分属性"(即内部节点所对应的属性) (3)预测过程:将测试实例从根节点开始,沿着划分属性所构成的"判定测试序列"下行,直到叶节点 2.决策树的总体流程: (1):&qu

web安全之机器学习入门——3.2 决策树与随机森林算法

目录简介决策树简单用法决策树检测P0P3爆破决策树检测FTP爆破随机森林检测FTP爆破简介决策树和随机森林算法是最常见的分类算法: 决策树,判断的逻辑很多时候和人的思维非常接近. 随机森林算法,利用多棵决策树对样本进行训练并预测的一种分类器,并且其输出的类别是由个别决策树输出的类别的众数决定. 决策树简单用法使用sklearn自带的iris数据集 # -*- coding: utf-8 -*- from sklearn.datasets import load_iris from

R语言︱决策树族——随机森林算法

笔者寄语:有一篇<有监督学习选择深度学习还是随机森林或支持向量机?>(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归.若效果不好,也即并没达到你的预期或评判效果基准时,再进行下换其他更复杂模型来实验. ---------------------------------------------- 一.随机森林理论介绍 1.1 优缺点优点. (1)不必担心过度拟合

决策树与随机森林算法

决策树决策树模型是一种树形结构,基于特征对实例进行分类或回归的过程.即根据某个特征把数据分划分到若干个子区域(子树),再对子区域递归划分,直到满足某个条件则停止划分并作为叶子节点,不满足条件则继续递归划分. 一个简单的决策树分类模型:红色框出的是特征. 决策树模型学习过程通常包3个步骤:特征选择.决策树的生成.决策树的修剪. 1.特征选择选择特征顺序的不同将会产生不同决策树,选择好的特征能使得各个子集下标签更纯净.度量特征对产生子集的好坏有若干方法,如误差率,信息增益.信息增益比和基尼指数等

决策树和随机森林

决策树是一种非参数监督学习预测模型. 决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别. 1.举例: 举个校园相亲的例子,今天校园的小猫(女)和小狗(男)准备配对,小猫如何才能在众多的优质??的心仪的狗呢?于是呢?有一只特乖巧的小猫找到了你,你正在学习机器学习,刚好学习了决策树,准备给这只猫猫挑选优质狗,当然,你不仅仅是直接告诉猫哪些狗是合适你的?你更应该详细的给猫讲解决策树是如何根据它提出的标准选出的符合要求的狗呢?猫给出如下信息:年

决策树与随机森林

文章部分图片来源于龙心尘老师课件. 首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值.而树形模型更加接近人的思维方式.树模型拟合出来的函数其实是分区间的阶梯函数. 其次,需要了解几个重要的基本概念:根节点(最重要的特征):父节点与子节点是一对,先有父节点,才会有子节点:叶节点(最终标签). 一.决策树决策树生成的数学表达式: 决策树的生成必须要解决两个问题: (1) 如何分裂训练数据

从决策树到随机森林

这里仅介绍分类决策树. 决策树:特征作为决策的判定标准,整个模型形如树形结构,因此,称之为决策树对于分类决策树,他们可以认为是一组if-then规则的集合.决策树的每一个内部节点有特征组成,叶子节点代表了分类的结果.父节点和子节点之间是由有向边连接,表示了决策的结果. 在这里,有必要解释一下,为什么决策树的学习过程变成了三个步骤:特征选择.决策树生成和剪枝.而不是像LR或者SVM那样,具有显式的目标函数.首先,我们来看决策树:一个树形结构.如果要根据全局最优的策略,那么需要遍历数据集在所有的特

四、决策树、随机森林、GBDT、XGBoost

(本节课各种数学式子比较多.....^_^) 决策树 Decision Tree? 介绍? 熵 Entropy? 信息增益 Information Gain? 常见算法? 过度拟合 Overfitting? 剪枝 Prune? 增益率 GainRatio? 更多的DT应?场景类别:? 连续函数,多分类,回归? 决策树的究极进化 Ensemble? Bagging? Random Forest? Boosting? GBDT? XGBoost 决策树分治思想根据不同的条件作出相应的决定熵区

人工智能_5_决策树_随机森林

# 决策树,随机森林 # 决策树结构:if-then # 信息熵: # 例:第一届世界杯32支球队每个队伍冠军概率1/32 # 可得 log32(程序员认为的log一般都默认是以2为底) = -(1/32*log(1/32)+1/32*log(1/32).....) # 2018 第21届世界杯根据历史数据获胜概率不同 log32 > -(1/4*log(1/4)+1/4*log(1/4).....) # 几个log的和即为信息熵, 当概率变化时 log的和是小于log(n)的 # 信息熵与不

R语言基于树的方法：决策树，随机森林，套袋Bagging，增强树

原文链接:http://tecdat.cn/?p=9859 概观本文是有关基于树的回归和分类方法的.用于分割预测变量空间的分割规则可以汇总在树中,因此通常称为决策树方法. 树方法简单易懂,但对于解释却非常有用,但就预测准确性而言,它们通常无法与最佳监督学习方法竞争.因此,我们还介绍了装袋,随机森林和增强.这些示例中的每一个都涉及产生多个树,然后将其合并以产生单个共识预测.我们看到,合并大量的树可以大大提高预测准确性,但代价是损失解释能力. 决策树可以应用于回归和分类问题.我们将