cart回归树算法过程

回归树：使用平方误差最小准则

训练集为：D={(x1,y1), (x2,y2), …, (xn,yn)}。

输出Y为连续变量，将输入划分为M个区域，分别为R₁,R₂,…,R_M,每个区域的输出值分别为：c1,c2,…,c_m则回归树模型可表示为：

则平方误差为：

假如使用特征j的取值s来将输入空间划分为两个区域，分别为：

我们需要最小化损失函数，即：

　　其中c1,c2分别为R1,R2区间内的输出平均值。（此处与统计学习课本上的公式有所不同，在课本中里面的c1,c2都需要取最小值，但是，在确定的区间中，当c1,c2取区间输出值的平均值时其平方会达到最小，为简单起见，故而在此直接使用区间的输出均值。）

　　为了使平方误差最小，我们需要依次对每个特征的每个取值进行遍历，计算出当前每一个可能的切分点的误差，最后选择切分误差最小的点将输入空间切分为两个部分，然后递归上述步骤，直到切分结束。此方法切分的树称为最小二乘回归树。

最小二乘回归树生成算法：

1）依次遍历每个特征j，以及该特征的每个取值s，计算每个切分点（j,s）的损失函数，选择损失函数最小的切分点。

2）使用上步得到的切分点将当前的输入空间划分为两个部分

3）然后将被划分后的两个部分再次计算切分点，依次类推，直到不能继续划分。

4）最后将输入空间划分为M个区域R₁,R₂,…,R_M,生成的决策树为：

其中c_m为所在区域的输出值的平均。

　　总结：此方法的复杂度较高，尤其在每次寻找切分点时，需要遍历当前所有特征的所有可能取值，假如总共有F个特征，每个特征有N个取值，生成的决策树有S个内部节点，则该算法的时间复杂度为：O(F*N*S)

时间： 2024-10-26 11:42:11

cart回归树算法过程的相关文章

CART分类回归树算法

CART分类回归树算法与上次文章中提到的ID3算法和C4.5算法类似,CART算法也是一种决策树分类算法.CART分类回归树算法的本质也是对数据进行分类的,最终数据的表现形式也是以树形的模式展现的,与ID3,C4.5算法不同的是,他的分类标准所采用的算法不同了.下面列出了其中的一些不同之处: 1.CART最后形成的树是一个二叉树,每个节点会分成2个节点,左孩子节点和右孩子节点,而在ID3和C4.5中是按照分类属性的值类型进行划分,于是这就要求CART算法在所选定的属性中又要划分出最佳的属性划分

机器学习回顾篇（8）：CART决策树算法

注:本系列所有博客将持续更新并发布在github和gitee上,您可以通过github.gitee下载本系列所有文章笔记文件. 1 引言上一篇博客中介绍了ID3和C4.5两种决策树算法,这两种决策树都只能用于分类问题,而本文要说的CART(classification and regression tree)决策树不仅能用于分类问题,也能用于回归问题. 与ID3算法和C4.5算法相比,CART 还有个特性就是其所有非叶子结点都只有两个子树,也就是说在根据特征属性分裂数据集时,无论该特征属性有多

CART回归树基本原理（具体例子）

一.概念 CART全称叫Classification and Regression Tree.首先要强调的是CART假设决策树是二叉树,内部结点特征的取值只有“是”和“否”,左分支是取值为“是”的分支,有分支则相反.这样的决策树等价于递归地二分每个特征. 二.CART生成决策树的生成就是递归地构建二叉决策树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树. 三.回归树的生成最小二叉回归树生成算法: 1.选择最优切分变量j与切分点s,求解: 遍历变量j

CART回归树（chap9）Machine Learning In Action学习笔记

后续再次学习,现在理解有些模糊. 优点:可以对复杂和非线性的数据建模缺点:结果不易理解适用数据类型:数值型(转换成二值型)和标称型数据树回归的一般方法收集数据:采用任意方法收集数据. 准备数据:需要数值型的数据,标称型数据应该映射成二值型数据. 分析数据:绘出数据的二维可视化显示结果,以字典方式生成树. 训练算法:大部分时间都花费在叶节点树模型的构建上. 测试算法:使用测试数据上的R2值来分析模型的效果. 使用算法:使用训练出的树做预测,预测结果还可以用来做很多事情回归树与分类树的思路

决策树算法原理

转载于:http://www.cnblogs.com/pinard/p/6050306.html (楼主总结的很好,就拿来主义了,不顾以后还是多像楼主学习) 决策树算法在机器学习中算是很经典的一个算法系列了.它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林.本文就对决策树算法原理做一个总结,上篇对ID3, C4.5的算法思想做了总结,下篇重点对CART算法做一个详细的介绍.选择CART做重点介绍的原因是scikit-learn使用了优化版的CART算法作为其决策树算法

决策树算法（二）

在决策树算法原理(上)这篇里,我们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法.对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等.对于这些问题, CART算法大部分做了改进.CART算法也就是我们下面的重点了.由于CART算法可以做回归,也可以做分类,我们分别加以介绍,先从CART分类树算法开始,重点比较和C4.5算法的不同点.接着介绍CART回归树算法,重点介绍和CART分类树的不同点.然后我们讨论CA

决策树算法原理（下）

1. CART分类树算法的最优特征选择方法 2. CART分类树算法对于连续特征和离散特征处理的改进 3. CART分类树建立算法的具体流程 4. CART回归树建立算法 5. CART树算法的剪枝 6. CART算法小结 7. 决策树算法小结在决策树算法原理(上)这篇里,我们讲到了决策树里ID3算法,和ID3算法的改进版C4.5算法.对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等.对于这些问题, CART算法大部

模式识别：分类回归决策树CART的研究与实现

摘要:本实验的目的是学习和掌握分类回归树算法.CART提供一种通用的树生长框架,它可以实例化为各种各样不同的判定树.CART算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的决策树的每个非叶子节点都有两个分支.因此,CART算法生成的决策树是结构简洁的二叉树.在MATLAB平台上编写程序,较好地实现了非剪枝完全二叉树的创建.应用以及近似剪枝操作,同时把算法推广到多叉树. 一.技术论述 1.非度量方法在之前研究的多种模式分类算法中,经常会使用到样本或向量之间距离度量(d

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树

摘要: Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理.决策树创建过程分析了信息混乱度度量Gini指数.连续和离散特征的特殊处理.连续和离散特征共存时函数的特殊处理和后剪枝:用于回归时则介绍了回归树和模型树的原理.适用场景和创建过程.个人认为,回归树和模型树

猜你喜欢

atitit.Windows Server 2003 2008 2012系统的新特性 attilax 总结

atitit.Windows Server 2003 2008 2012系统的新特性 attilax 总结 1. Windows Server 2008 新特性也可以归纳为4个方面. 1 2. 相 ...

[转载]在 Windows 10 中, 如何卸载和重新安装 OneNote App

在 Windows 10 中, 如何卸载和重新安装 OneNote App 15/8/2015 使用 PowerShell 命令卸载 OneNote App 开始菜单 -> 输入 "P ...

java匿名对象_面向对象

class Student{ public void tell(){ System.out.println("Hello jikexueyuan"); } public void ...

统筹高效利用时间——《小强升职记（升级版）：时间管理故事书》读后感

统筹高效利用时间 --<小强升职记(升级版):时间管理故事书>读后感看完<小强升职记:时间管理故事书>,很有感触.书只是以小强为人物线索,通篇讲解如何管理.高 ...

vue2购物车ch3-（过滤器使用单件商品金额计算全选全不选总金额计算删除商品功能）

1 index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset=&q ...

最后一周

这周日,到下周日刚好一周一场CCPC(杭州) 一场ICPC(沈阳) 终于要退了也有点够了呢包子说无论什么结果你都不后悔吗有什么好后悔呢? 总会有遗憾但那些满足不仅仅来自奖牌我终于懂 ...

shell学习日志

0.shell的变量同环境变量不同,存在用户环境区. 变量赋值的方式是: variable_name = variable_value a= "hello" $a对a进行取值关于 ...

AM335x(TQ335x)学习笔记——Nand&&网卡驱动移植

移植完成声卡驱动之后本想再接再励,移植网卡驱动,但没想到的是TI维护的内核太健壮,移植网卡驱动跟之前移植按键驱动一样简单,Nand驱动也是如此,于是,本人将Nand和网卡放在同一篇文章中介绍.介绍之前 ...

匈牙利算法 codevs 2776 寻找代表元

codevs 2776 寻找代表元时间限制: 1 s 空间限制: 256000 KB 题目等级 : 黄金 Gold 题目描述 Description 广州二中苏元实验学校一共有n个社团,分别用1到n ...

[iOS基础控件 - 3.2] transform的使用

A.概念可以控制UIView的位置.尺寸.旋转 transform是一种状态,每次都是相对于原始状态作出的形变 1.位置移动 1 // 向上移动 2 - (IBAction)top:(UIButto ...

linux调整cpu频率

cd /sys/devices/system/cpu/cpu0/cpufreq cat scaling_available_governors hotplug conservative onde ...

检索算法——顺序查找（最大值、最小值、自组织数据）

/* function seqSearch(arr, data) {//等价于:arr.indexOf(data),内置indexOf()方法效率较高 for ( var i = 0; i < ...

谱聚类python实践

聚类后: # -*- coding: utf-8 -*-"""Created on 09 05 2017 @author: similarface"" ...

STL源码剖析(算法)

STL中算法是基于迭代器来实现的. 有了容器中迭代器的实现(对operator*.operator++等的重载),STL中大部分算法实现就显得很简单了. 先看一例关于find算法的实现: 1 temp ...

Nginx使用SSL配置HTTPS

创建服务器私钥 openssl genrsa -des3 -out server.key 1024 创建签名请求的证书(CSR) openssl req -new -key server.key -o ...

PKU 2406 Power Strings（KMP最长循环不重叠字串）

题意:给一个字符串S长度不超过10^6,求最大的n使得S由n个相同的字符串a连接而成,如:"ababab"则由n=3个"ab"连接而成,"aaaa&q ...

Linux 定时任务 Crontab命令详解

Linux 定时任务 Crontab命令详解复制去Google翻译翻译结果

C++宏定义详解

一.#define的基本用法 #define是C语言中提供的宏定义命令,其主要目的是为程序员在编程时提供一定的方便,并能在一定程度上提高程序的运行效率,但学生在学习时往往不能理解该命令的本质 ...

WARNING [Project: :app] To shrink resources you must also enable ProGuard

新版本的Android Gradle plugin中,对于resource有了更加一步的管理,可以把unused resource移除,不仅是自己工程,并且library里面也可以没有用到的,也可以移 ...

Mysql启动时提示：Another MySQL daemon already running with the same unix socket.

场景:vmvare虚拟机.centos7.mysql5.7 解决: mv /var/lib/mysql/mysql.sock /var/lib/mysql/mysql.sock.bak 参考: htt ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.