四、决策树、随机森林、GBDT、XGBoost

（本节课各种数学式子比较多。。。。。^_^）

决策树 Decision Tree
? 介绍
? 熵 Entropy
? 信息增益 Information Gain
? 常见算法
? 过度拟合 Overfitting
? 剪枝 Prune
? 增益率 GainRatio
? 更多的DT应?场景类别：
? 连续函数，多分类，回归
? 决策树的究极进化 Ensemble
? Bagging
? Random Forest
? Boosting
? GBDT
? XGBoost

决策树

　　分治思想

　　根据不同的条件作出相应的决定

熵

　　区分数据

信息增益

决策树算法：　　

　　ID3算法

　　C4.5算法

　　CART算法

Bagging (Breiman, 1996)
Fit many large trees to bootstrap-resampled versions of the training
data, and classify by majority vote.

Random Forest

　　1、从原始训练数据集中，应?bootstrap?法有放回地随机抽取k个新的?助样本集，
并由此构建k棵分类回归树，每次未被抽到的样本组成了Ｋ个袋外数据（out-of-
bag,BBB）。
　　2、设有n个特征，则在每?棵树的每个节点处随机抽取m个特征，通过计算
每个特征蕴含的信息量，特征中选择?个最具有分类能?的特征进?节点分裂。
　　3、每棵树最?限度地?长，不做任何剪裁
　　4、将?成的多棵树组成随机森林， ?随机森林对新的数据进?分类，
分类结果按树分类器投票多少?定。

Boosting
　　1. 先在原数据集中长出?个tree
　　2. 把前?个tree没能完美分类的数据重新weight
　　3. ?新的re-weighted tree再训练出?个tree
　　4. 最终的分类结果由加权投票决定

　　AdaBoost

　　　　步骤1. ?先，初始化训练数据的权值分布。每?个训练样本最开始时都被
赋予相同的权值：1/N

　　　步骤2. 进?多轮迭代，?m = 1,2, ..., M表?迭代的第多少轮

　　　　步骤3. 组合各个弱分类器

Gradient Boostcd Decision Tree （GBDT）

特点：

　　　a. Adaboost的Regression版本　

　　　b. 把残差作为下?轮的学习?标
　　 c. 最终的结果有加权和值得到，不再是简单的多数投票

XGBoost
　　本质还是个GBDT，但是是把速度和效率做到了极致，所以叫X (Extreme) GBoosted

训练模型

　　房价预测案例

原文地址：https://www.cnblogs.com/qianyuesheng/p/8453606.html

时间： 2024-12-04 04:02:52

四、决策树、随机森林、GBDT、XGBoost

四、决策树、随机森林、GBDT、XGBoost的相关文章

集成学习 - 决策树-随机森林

集成学习:随机森林.GBDT

决策树随机森林 adaboost

机器学习之路：python 综合分类器随机森林分类梯度提升决策树分类泰坦尼克号幸存者

人工智能_5_决策树_随机森林

04-10 Bagging和随机森林

随机森林算法基础梳理

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

机器学习中的算法——决策树模型组合之随机森林与GBDT