统计学习方法–> 决策树

前言:

用途:分类。

类似于if-then集合

优点:速度快。

原则:损失函数最小化,这是所有机器学习算法的原则。

步骤:1> 特征选择 2> 决策树生成 3> 决策树修剪

决策树模型

内部结点和叶结点,太好理解了,无需讨论。

if-then 集合

if-then 需要保证重要的一点:就是互斥且完备。很好理解。完备保证每个实例都有选择。互斥保证每个实例只有一个选择。

决策树与条件概率分布

分类时候讲结点的实例分到概率较大的一方去。

决策树学习

决策树要学习的本质上就是各种分类的规则。至少要保证分类获得的规则要和训练的数据矛盾不大。

决策树往往会过拟合(插句嘴,GBDT也往往会过拟合)。越好的分类特征越先使用。只要有样本还没有分类,就继续构建特征进行分类。

决策树生成对应着局部选择。剪枝的时候就要考虑全局最优了。

常用算法有ID3,C4.5 CART 三种。

特征选择

特征选择的准则:信息增益和信息增益比。

信息增益

g(D,A) = H(D) – H(D|A)

就选择g(D,A) 最大的那个作为首选特征。

信息增益比

gr(D,A) = g(D,A) / H(D)   H(D) 为信息增益/训练集关于特征A的熵。

ID3算法

决策树最典型的方法。从根节点开始,选对应的最大信息增益的特征作为选择特征。建立子结点之后,还是构建对应的最大信息增益的特征。

有一种可能会发生的情况。就是能构建树的所有特征都用完了。而训练数据还没有完全区分开。出现这种情况就不要再想尽办法去区分了。把留下的训练数据看哪种结果多,就作为该结点的结果好了。

还有一种情况,就是你构建了特征,但是信息增益特别小。小到小于可以忍受的阈值。那也按上面的同样的方法给定这个叶子结点的值。

C4.5的生成算法

在ID3的基础上进行了改进。

特征的选择用的是信息增益比。

其他的一样。

决策树的剪枝

剪枝是将树进行简化。

剪枝原则:极小化 loss function 或者 cost function。用正则化的极大似然估计进行模型选择。

损失函数好复杂,就不记了。知道上面这两句就够了。

CART算法 前言

CART: 分类树 与 回归树。

走三步:特征选择,生成树,对树剪枝。

时间: 2024-10-19 17:51:36

统计学习方法–> 决策树的相关文章

决策树(统计学习方法(李航))的贷款的例子的实现

以统计学习方法(李航)这本书的例子为基础 需要注意的地方: 我用的是pycharm python版本是3.7 graphviz是一个软件,在pycharm里面下了还得去官网下 下完之后得加入环境变量可能还需要重启电脑 缺啥库就安啥库 那个数据是我自己设置的,手敲的. 贷款申请样本数据表 ID 年龄 有工作 有自己的房子 信贷情况 类别 1 青年 否 否 一般 否 2 青年 否 否 好 否 3 青年 是 否 好 是 4 青年 是 是 一般 是 5 青年 否 否 一般 否 6 中年 否 否 一般 否

统计学习方法笔记(1)——统计学习方法概论

1.统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习.统计学习是数据驱动的学科.统计学习是一门概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科. 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提. 统计学习的目的就是考虑学习什么样的模型和如何学习模型. 统计学习

统计学习方法概论

统计学习 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科.统计学习也称为统计机器学习(statical machine learning). 统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析.统计学习由监督学习.非监督学习.半监督学习和强化学习等组成. 统计学习方法包括假设空间.模型选择的准则.模型学习的算法,这些统称为统计学习方法的三要素:模型(Model).策略(Strategy).算法(Algorithm). 实现统计学习方法的步骤如下:

[读]统计学习方法

这两天看<统计学习方法>,记录了一些基本的知识点. 1.统计学习的方法 从给定的.有限的.用于学习的训练数据集合出发,假设数据时独立同分布产生:并且假设要学习的模型术语某个函数的集合,称为假设空间:应用某个评价准则,从假设空间中选取一个最优的模型,使他对已知训练数据及未知测试数据在给定的评价准则下有最优的预测:最幽默型的选取由算法实现.这样,统计学习方法包括模型的假设空间.模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型.策略和算法. 实现统计学习的步骤如下: (1)得

统计学习方法:CART算法

作者:桂. 时间:2017-05-13  14:19:14 链接:http://www.cnblogs.com/xingshansi/p/6847334.html . 前言 内容主要是CART算法的学习笔记. CART算法是一个二叉树问题,即总是有两种选择,而不像之前的ID3以及C4.5B可能有多种选择.CART算法主要有回归树和分类树,二者常用的准则略有差别:回归树是拟合问题,更关心拟合效果的好坏,此处用的是均方误差准则; 分类树是分类问题,更像是离散变量的概率估计,用与熵类似的Gini系数进

统计学习方法 李航---第12章 统计学习方法总结

第12章 统计学习方法总结 1 适用问题 分类问题是从实例的特征向量到类标记的预测问题:标注问题是从观测序列到标记序列(或状态序列)的预测问题.可以认为分类问题是标注问题的特殊情况. 分类问题中可能的预测结果是二类或多类:而标注问题中可能的预测结果是所有的标记序列,其数目是指数级的. 感知机.k近邻法.朴素贝叶斯法.决策树是简单的分类方法,具有模型直观.方法简单.实现容易等特点: 逻辑斯谛回归与最大熵模型.支持向量机.提升方法是更复杂但更有效的分类方法,往往分类准确率更高: 隐马尔可夫模型.条件

《统计学习方法》笔记

书籍ISBN:978-7-302-27595-4 第3章 k近邻法 P37 3.1节 k近邻算法 k近邻算法简单.直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类.算法描述如下: 输入:训练数据集 其中xi是n维实数空间上的实例特征向量.yi∈{c1, c2,..., ck}为实例的类别,i = 1, 2,..., N:新输入的实例特征向量x. 输出:实例x所属的类y. (1)根据给定的距离度量,在训练集T

统计学习方法 李航---第8章 提升方法

第8章提升方法 提升(boosting)方法是一种常用的统计学习方法,应用广泛且有效.在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能. 基本思想:对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易得多.提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器.大多数的提升方法都是改变训练数据的概率分布(训练数据的权值分布),针对

统计学习方法 李航---第1章 统计学习方法概论

第一章 统计学习方法概论 统计学习的主要特点是: (1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的; (2)统计学习以数据为研究对象,是数据驱动的学科: (3)统计学习的目的是对数据进行预测与分析: (4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析; (5)统计学习是概率论.统计学.信息论.计算理论.最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论. 统计学习的对象是数据Cdata) 统计学习的目的是对数据进行预铡与分析