CART

CART树的构建:

$function\ cart(D)$--$D$为数据

1.如果到了终止条件(如:所有x都相同,或所有y都相同,或到了指定深度),返回叶子节点

2.选择 分割方式,将数据分为左树$D_l$、右树$D_r$ 2部分

3.$cart(D_l),cart(D_r)$

分割方式(cart的分割方式不固定,此处采用decision stump):

选择所有decision stump中,综合不纯度最小的

用impurity(不纯度)衡量单个数据集

方式1:

将这个节点当作叶子节点,考虑此叶子节点上的错误

regression    -$impurity = \frac{1}{N}\sum_i (y_i-\overline{y})$

classification-$impurity = \frac{1}{N}\sum_i [y_i\neq y^*]$

Gini Index(考虑到了其他分类):

$impurity = 1-\frac{1}{K}\sum_k {(\frac{\sum_i [y_i=k]}{N})}^2$

pruning:

完全长成的树,$E_{in}=0$,容易overfit;考虑加入regulization,一个方法是限制叶子节点的数量

要列出所有的树,是不可能的,考虑在以下树中做选择:

1.$G^0$为完全长成的树

2.$G^i$为在$G^{i-1}$的基础上,去掉一个叶子节点的树(在去掉一个节点的树中选取$E_{in}$最小)

missing data:

比如体重为空,选择用身高代替

CART中,每个分类节点都有一个候选分割列表(这些分割列表分割后和原分割相差很小)

来自为知笔记(Wiz)

时间: 2024-10-02 23:06:24

CART的相关文章

Opencv研读笔记:haartraining程序之cvCreateCARTClassifier函数详解(CART树状弱分类器创建)~

cvCreateCARTClassifier函数在haartraining程序中用于创建CART树状弱分类器,但一般只采用单一节点的CART分类器,即桩分类器,一个多节点的CART分类器训练耗时很多.根据自己的测试,要等差不多10分钟(2000正样本.2000负样本)才能训练完一个3节点的弱分类器,当然,总体的树状弱分类器的数目可能也会减少1/2.之所以将此函数拿出来说说,主要是因为在网上找不到针对这个函数的详细说明,同时,CART的应用十分广泛,自己也趁这个机会好好学学,把自己的一点理解分享给

用cart(分类回归树)作为弱分类器实现adaboost

在之前的决策树到集成学习里我们说了决策树和集成学习的基本概念(用了adaboost昨晚集成学习的例子),其后我们分别学习了决策树分类原理和adaboost原理和实现, 上两篇我们学习了cart(决策分类树),决策分类树也是决策树的一种,也是很强大的分类器,但是cart的深度太深,我们可以指定cart的深度使得cart变成强一点的弱分类器. 在决策树到集成学习我们提到,单棵复杂的决策树可以达到100%,而简单的集成学习只能有85%的正确率,下面我们尝试用强一点的弱分类器来看下集成学习的效果有没有提

CART(决策分类树)原理和实现

前面我们了解了决策树和adaboost的决策树墩的原理和实现,在adaboost我们看到,用简单的决策树墩的效果也很不错,但是对于更多特征的样本来说,可能需要很多数量的决策树墩 或许我们可以考虑使用更加高级的弱分类器,下面我们看下CART(Classification And Regression Tree)的原理和实现吧 CART也是决策树的一种,不过是满二叉树,CART可以是强分类器,就跟决策树一样,但是我们可以指定CART的深度,使之成为比较弱的分类器 CART生成的过程和决策树类似,也是

ID3、C4.5、CART、RandomForest的原理

决策树意义: 分类决策树模型是表示基于特征对实例进行分类的树形结构.决策树可以转换为一个if_then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布. 它着眼于从一组无次序.无规则的样本数据(概念)中推理出决策树表示形式的分类规则.假设这里的样本数据应该能够用“属性—结论”.决策树学习旨在构建一个与训练数据拟合很好,并且复杂度小的一个可以自动对数据进行分类的树形结构,是树形结构的知识表示,可以直接转换为分类规则.因为从可能的决策树中直接选取最优决策树是NP完全问题,现实中采用启发

决策树-预测隐形眼镜类型 (ID3算法,C4.5算法,CART算法,GINI指数,剪枝,随机森林)

1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26. 女儿:长的帅不帅? 母亲:挺帅的. 女儿:收入高不? 母亲:不算很高,中等情况. 女儿:是公务员不? 母亲:是,在税务局上班呢. 女儿:那好,我去见见. 决策过程: 这个女孩的决策过程就是典型的分类树决策.

CART:分类与回归树

起源:决策树切分数据集   决策树每次决策时,按照一定规则切分数据集,并将切分后的小数据集递归处理.这样的处理方式给了线性回归处理非线性数据一个启发. 能不能先将类似特征的数据切成一小部分,再将这一小部分放大处理,使用线性的方法增加准确率呢? Part I:  树的枝与叶 枝:二叉 or 多叉? 在AdaBoost的单决策树中,对于连续型数据构建决策树,我们采取步进阈值切分2段的方法.还有一种简化处理,即选择子数据集中的当前维度所有不同的值作为阈值切分. 而在CART里,大于阈值归为左孩子,小于

《机器学习技法》---CART算法

1 决策树模型的数学表达形式 决策树模型画出图很简单.那么它的数学表达形式是怎样的呢?这里介绍递归形式: 其中,G(x)表示决策树对应的函数,b(x)表示分叉的规则,Gc(x)是子树的模型. 2 一般决策树生成算法的框架 即,学习划分规则b(x),然后把数据按照b(x)划分为C部分,对每一部分递归地生成子树.注意递归在一定条件停止,直接返回一个g(x). 事实上,不同的决策树算法,都是这个基本的框架.不同的地方在于这四个部分的具体定义是不同的: 3 CART算法 CART算法中,框架中的四个部分

【机器学习笔记之三】CART 分类与回归树

本文结构: CART算法有两步 回归树的生成 分类树的生成 剪枝 CART - Classification and Regression Trees 分类与回归树,是二叉树,可以用于分类,也可以用于回归问题,最先由 Breiman 等提出. 分类树的输出是样本的类别, 回归树的输出是一个实数. CART算法有两步: 决策树生成和剪枝. 决策树生成:递归地构建二叉决策树的过程,基于训练数据集生成决策树,生成的决策树要尽量大: 自上而下从根开始建立节点,在每个节点处要选择一个最好的属性来分裂,使得

C4.5,CART,randomforest的实践

#################################Weka-J48(C4.5)################################# ##############################R语言:C4.5###################################### ###############################C5.0############################# data(churn) treeModel <- C5

机器学习day14 机器学习实战树回归之CART与模型树

这几天完成了树回归的相关学习,这一部分内容挺多,收获也挺多,刚刚终于完成了全部内容,非常开心. 树回归这一章涉及了CART,CART树称作(classify and regression tree) 分类与回归树,既可以用于分类,也可以用于回归.这正是前面决策树没有说到的内容,在这里补充一下.正好也总结一下我们学的3种决策树. ID3:用信息增益来选择特性进行分类,只能处理分类问题.缺点是往往偏向于特性种类多的特性进行分解,比如特性A有2种选择,特性B有3种选择,混乱度差不多的情况下,ID3会偏