统计学习笔记之决策树(二)

1.CART分类树的特征选择

分类问题中,假设有K个类,样本点属于第k类的概率为,则概率分布的基尼指数定义为:

　　

如果，集合D根据特征A是否取某一可能值a被分割成和，在特征A的条件下,集合D的基尼指数定义为:

　　

基尼指数代表了模型的不纯度,基尼指数越小,不纯度越小,特征越好.

2.CART分类树的生成算法

输入:训练数据集D,停止计算条件;

输出:CART决策树.

根据训练数据集,从根结点开始,递归的对每个结点进行以下操作,构建二叉树:

(1)计算现有特征对该数据集的基尼指数;

(2)在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征,以及其对应的切分点作为最优特征和最优切分点,依此从现结点生成两个子结点,将数据集集体依特征分配到两个子结点中去;

(3)对两个子结点递归的调用(1)(2)，直至满足停止条件;

(4)生成CART决策树

3.CART回归树的建立

在CART分类树中,用基尼指数来选择最优特征和最优切分点,而在回归树当中用的是均方差.选择最优切分变量j与切分点s的方式是,求解:

　　

　　其中是的样本输出均值，是的样本输出均值。CART分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别，它采用的是用最终叶子的均值或者中位数来预测输出结果。

4.CART剪枝思想

　　由于决策树算法容易过拟合，导致泛化能力较差，为了解决此问题，便引入了决策树剪枝，即类似于线性回归的正则化，来增强决策树的泛化能力。CART树采用后剪枝，分为两步：一、从生产算法产生的决策树不断剪枝，直到根结点，产生剪枝后的决策树；二、通过交叉验证法在独立的实验数据集上对子树进行测试，选择最优子树。

　　在剪枝过程中，计算子树的损失函数：

　　　　

其中，T为任意子树，是对训练数据的预测误差(如基尼指数)，为子树的叶结点个数，为参数，并权衡训练数据的拟合程度与模型的复杂度。表示参数为时的整体损失。偏大时，最优子树偏小，偏小时，最优子树偏大，时，整体树是最优的。

　　剪枝时，从整体树开始,对的任意内部结点t,以t为单结点树的损失函数是:

　　　　

　　以t为根结点的子树的损失函数是:

　　　　

　　当及充分小时,有不等式:

　　　　

可以这么理解,剪枝后的损失函数值比剪枝前的损失函数值要小.

　　当增大时,在某一有:

　　　　

　　当再增大时,不等式反向.那么,只要,与t有相同的损失函数值,而t的结点减少,因此t比更可取,对进行剪枝.

　　为此,对中每一个内部结点t,计算

　　　　

它表示剪枝后整体损失函数减少的程度,在中减去最小的,得到的子树作为,同时将最小的设为.为区间的最优子树.如此剪枝下去,直到得到根结点.在这一过程中,不断的增加的值,产生新的区间.

　　最后,利用独立的验证数据集,测试子树序列中各棵子树的平均方误差或者基尼指数,值最小的决策树被认为是最优的决策树.在子树序列中,每棵子树都对应一个参数.所以,当最优子树确定时,对应的也就确定下来了,即得到最优决策树.

5.CART剪枝算法

输入:CART算法生成的决策树;

输出:最优决策树.

(1)设k=0，

(2)设

(3)自下而上地对各内部结点t计算,以及

　　

　　

这里,表示以t为根结点的子树,是对训练数据的预测误差,是的叶结点个数

(4)对的内部结点t进行剪枝,并对叶结点t以多数表决法决定其类,得到树

(5)设

(6)如果不是由根结点及两个叶结点构成的树,返回到(3);否则

(7)采用交叉验证法在子树序列中选择最优子树

时间： 2024-12-26 10:41:24

统计学习笔记之决策树(二)的相关文章

SaltStack 学习笔记 - 第十二篇： SaltStack Web 界面

SaltStack 有自身的用python开发的web界面halite,好处是基于python,可以跟salt的api无缝配合,确定就比较明显,需要个性化对web界面进行定制的会比较麻烦,如果喜欢体验该界面的可以参考下面的文章 http://rfyiamcool.blog.51cto.com/1030776/1275443/ 我是运用另一个python+php来进行web开发,具体需要的工具有在我的另一篇文章里面介绍过,这里再重新进行整个开发介绍首先介绍php 跟python通信的工具 pp

【Unity 3D】学习笔记四十二：粒子特效

粒子特效粒子特效的原理是将若干粒子无规则的组合在一起,来模拟火焰,爆炸,水滴,雾气等效果.要使用粒子特效首先要创建,在hierarchy视图中点击create--particle system即可粒子发射器粒子发射器是用于设定粒子的发射属性,比如说粒子的大小,数量和速度等.在创建完粒子对象后,在右侧inspector视图中便可以看到所有的粒子属性: emit:是否是使用粒子发射器. min size:粒子最小尺寸. max size:粒子最大尺寸. min energy:粒子的最小生命周期

马哥学习笔记三十二——计算机及操作系统原理

缓存方式: 直接映射 N路关联缓存策略: write through:通写 write back:回写进程类别: 交互式进程(IO密集型) 批处理进程(CPU密集型) 实时进程(Real-time) CPU: 时间片长,优先级低IO:时间片短,优先级高 Linux优先级:priority 实时优先级: 1-99,数字越小,优先级越低静态优先级:100-139,数据越小,优先级越高实时优先级比静态优先级高 nice值:调整静态优先级 -20,19:100,139 0:120 ps

【Unity Shaders】学习笔记——SurfaceShader（二）两个结构体和CG类型

[Unity Shaders]学习笔记——SurfaceShader(二)两个结构体和CG类型转载请注明出处:http://www.cnblogs.com/-867259206/p/5596698.html 写作本系列文章时使用的是Unity5.3. 写代码之前: 当然啦,如果Unity都没安装的话肯定不会来学Unity Shaders吧? 阅读本系列文章之前你需要有一些编程的概念. 在VS里面,Unity Shaders是没有语法高亮显示和智能提示的,VS党可以参考一下这篇文章使代码高亮显示

【Unity 3D】学习笔记三十二：游戏元素——游戏光源

游戏光源在3D游戏中,光源是一个非常具有特色的游戏组件.用来提升游戏画面质感的.如果没有加入光源,游戏场景可能就会显得很昏暗.在unity中提供了三种不同的光源类型:点光源,聚光灯,平行光. 点光源顾名思义,点光源是从一个点向周围散发出光的光源,就像电灯一样.创建点光源在hierarchy视图中点击create--point light: 创建完以后,点击点光源对象,在右侧inspector视图中可以看到点光源的所有信息: type:光源的类型.有point(点光源),directional

《Javascript权威指南》学习笔记之十二：数组、多维数组和符合数组（哈希映射）

Array(数组)是JavaScript中较为复杂的数据类型,同Java.C#.VB等程序语言的数组相比,Javascript数组中的元素不必为相同的数据类型,可以在数组每个元素上混合使用数字.日期.字符串.Object,甚至添加一个嵌套数组. 一.创建数组 1.var arr1 = new Array(); /var arr2 = new Array(length); /var arr3 = new Array(element1,element2...); var arr4 = [eleme

汇编入门学习笔记（十二）—— int指令、port

疯狂的暑假学习之汇编入门学习笔记 (十二)-- int指令.port 參考: <汇编语言> 王爽第13.14章一.int指令 1. int指令引发的中断 int n指令,相当于引发一个n号中断. 运行过程相当于: (1)取中断类型吗n. (2)标志寄存器入栈:设置IF=0,TF=0. (3)CS.IP入栈 (4)(IP)=(n*4),(CS)=(n*4+2) 样例1:编写.安装中断7ch.实现求一个word型数据的平方,用ax存放这个数据. assume cs:code code s

Android学习笔记（十二）——使用意图传递数据的几种方式

使用意图传递数据的几种方式点此获取完整代码我们除了要从活动返回数据,也常常要传递数据给活动.对此我们可以使用Intent对象将这些数据传递给目标活动. 1.创建一个名为PassingData的项目,在activity_main.xml文件中添加一个Button: <Button android:id="@+id/btn_SecondActivity" android:layout_width="fill_parent" android:layout_hei

Unity3d之Hash&Slash学习笔记之（二）--角色基础类的构建

Hash&Slash学习笔记之(二)--角色基础类的构建 BaseStat类的构建基本成员变量: _baseValue //基础属性值 _buffValue //增加的buff值 _expToLevel //升级所需经验值 _levelModifier //每一级的增长率,即下一等级所需经验为_expToLevel*_levelModifier 成员函数: private int CalculateExpToLevel(){ //计算下一级升级所需经验 return (int)(_expToL

猜你喜欢

MongoDB基本命令用

成功启动MongoDB后,再打开一个命令行窗口输入mongo,就可以进行数据库的一些操作. 输入help可以看到基本操作命令: show dbs:显示数据库列表 show collections:显示 ...

转载自网络 (一)java自带的加密和解密 import sun.misc.BASE64Decoder; public class Base64Utils { public static Strin ...

LeetCode -- Set Matrix Zeroes

Question: Given a m x n matrix, if an element is 0, set its entire row and column to 0. Do it in pla ...

"模仿"还是"创新"

在IT行业中,有很多的“模仿”行为,例如我们常用的QQ,就是由OICQ模仿而来,并且模仿了MSN.并且随着QQ的界面的更新,功能的完善,OICQ渐渐淡出了人们的视线.MSN也很少有青少年使用. 这种行 ...

【CODEVS1281】Xn数列

Description 给你6个数,m, a, c, x0, n, g Xn+1 = ( aXn + c ) mod m,求Xn m, a, c, x0, n, g<=10^18 Input 一 ...

Python进制转换（二进制、十进制和十六进制）

#!/usr/bin/env python # -*- coding: utf-8 -*- # 2/10/16 base trans. wrote by srcdog on 20th, April, ...

2.4 基本的输入/输出操作

在C++输入/输出围绕着数据流这个概念,在数据流中,可以把数据插入输出流,或者从输入流析取数据.到屏幕上命令行的标准输出流称为cout,来自键盘的互补输入流称为cin.这两个流的名称都定义在std名称 ...

Wow! Such Doge!---hdu4847（字符串水题）

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4847 题意就是求给出的文章中共有多少个doge,不区分大小写直接用strstr做就可以了: #incl ...

如何营造办公室的友好氛围

办公室有时就是一个小社会,人多嘴杂.面对各种利益冲突,你必须找准角色定位,既不能孤芳自赏,又不能表现过度.如何迅速赢得大多数人的好感,尽快融入其中,营造良好的人际关系呢? 办公室5大忌 1.切忌拉小圈 ...

Oracle面向对象的应用实例

近期做项目,遇到一个基站的数据模型,此基站有7大属性,每个属性下面又有第二层的若干个属性,第二层下面又有第三层的若干属性,一直到第五层的最底层属性超过1000个,现在要把这个基站按照7大属性,设计成7 ...

绑定程序集

需要配置配置文件 1,codeBase:只可用于共享程序集 ①:从网络加载 <?xml version="1.0" encoding="utf-8" ?& ...

Pro Android学习笔记（一）：Android平台

本系列是阅读<Pro Android4>的读书笔记,也包括网络阅读资料的整理,以及个人心得. 由于智能手机引入AP(应用处理器),Android在某种意义上是个人计算机,具有桌面计算机的完 ...

NYOJ--244--16进制的简单运算(C++控制输入输出)

16进制的简单运算时间限制:1000 ms | 内存限制:65535 KB 难度:1 描述现在给你一个16进制的加减法的表达式,要求用8进制输出表达式的结果. 输入第一行输入一个正整数T(0 ...

php删除最后一个字符

原字符串1,2,3,4,5,6, 去掉最后一个字符",",最终结果为1,2,3,4,5,6 结合运用substr和strlen两个函数实现. 代码: $str = "1, ...

像计算机科学家一样思考python笔记

[TOC] #1 程序之道 ##1.1 Python程序语言 - 有两种程序可以让高级语言转换为低级语言,分别是直译器和编译器. - 有两种方式使用python的直译器:shell模式和脚本模式. # ...

初探java I/O 工作机制

来自书籍:深入JAVA WEB技术内幕 1.Java I/O类库的基本架构 java的I/O操作类在包java.io下,大概有将近80多个类,大概可以分下面4组: 基于字节操作的I/O接口: Inpu ...

jquery.datepair日期时分秒选择器

jquery.datepair是一个轻量级的jQuery插件,智能选择日期和时间范围,灵感来自于谷歌日历.Datepair将保持开始和结束日期/时间同步,并可以根据用户的操作设置默认值.该插件不提供任 ...

java 日期处理相关

/** *获取指定日期前后指定天数的日期 * */ public static String getNewDate(String sdate, int days) throws Exception ...

Scala学习笔记--提取器unapply

转自崔鹏飞的博客博文地址:http://blog.csdn.net/cuipengfei1/article/details/33353159 实在想不到什么动词可以当做脱衣服来讲了,所以从现在开始 ...

使用ssh-keygen和ssh-copy-id三步实现SSH无密码登录

ssh-keygen 产生公钥与私钥对. ssh-copy-id 将本机的公钥复制到远程机器的authorized_keys文件中,ssh-copy-id也能让你有到远程机器的home, ~./ss ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.