04-10 Bagging和随机森林

目录

  • Bagging算法和随机森林
  • 一、Bagging算法和随机森林学习目标
  • 二、Bagging算法原理回顾
  • 三、Bagging算法流程
    • 3.1 输入
    • 3.2 输出
    • 3.3 流程
  • 四、随机森林详解
    • 4.1 随机森林和Bagging算法区别
  • 五、随机森林拓展
    • 5.1 Extra Trees
    • 5.2 Totally Random Trees Embedding
    • 5.3 Isolation Forest
  • 六、随机森林流程
    • 6.1 输入
    • 6.2 输出
    • 6.3 流程
  • 七、随机森林优缺点
    • 7.1 优点
    • 7.2 缺点
  • 八、小结

更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

Bagging算法和随机森林

集成学习主要分成两个流派,其中一个是Boosting算法,另一个则是本文要讲的Bagging算法,Bagging算法
算法的弱学习器是没有依赖关系的,因此弱学习之间可以并行拟合。

Bagging算法中最著名的算法是随机森林,由于随机森林的不容易过拟合性以及简便性,可以说是和梯度提升树同名的算法。

一、Bagging算法和随机森林学习目标

  1. Bagging算法原理
  2. Bagging算法流程
  3. 随机森林和Bagging算法区别
  4. 随机森林流程

二、Bagging算法原理回顾

Bagging算法的弱学习器的训练集是通过随机采样得到的。通过\(T\)次的随机采样,我们可以通过自主采样法(bootstrap sampling)得到\(T\)个采样集,然后对于这\(T\)个采样集独立的训练出\(T\)个弱学习器,之后我们通过某种结合策略将这\(T\)个弱学习器构造成一个强学习器。

在一个有\(m\)个样本的训练数据中随机采样,一个样本每次被采样的概率为\({\frac{1}{m}}\),不被采集的概率为\(1-{\frac{1}{m}}\),如果\(m\)次采样都没有采中的概率为\((1-{\frac{1}{m}})^m\),当\(m\rightarrow{\infty}\),\((1-{\frac{1}{m}})^m\rightarrow{\frac{1}{e}}\approx0.368\),即在Bagging算法的随机采样中,大约有\(36.8%\)的数据没有被采中。

Bagging算法的结合策略,对于分类问题,一般使用相对多数投票法,即票数最多的类别即为样本预测类别;对于回归问题,一般使用简单平均法,即对\(T\)个弱学习的输出做算术平均得到样本预测值。

三、Bagging算法流程

3.1 输入

\(m\)个样本\(n\)个特征的训练数据集\(D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\}\);弱学习器迭代次数为\(T\)。

3.2 输出

最终强学习器\(f(x)\)。

3.3 流程

  1. 对训练集进行第\(t\quad(t=1,2,\cdots,T)\)次随机采样,共采集\(m\)次,得到有\(m\)个样本的采样集\(D_t\)
  2. 用采样集\(D_t\)训练第\(t\)个弱学习器\(G_t(x)\)
  3. 对于分类问题,使用相对多数投票法预测分类结果;对于回归问题,使用简单平均法得到预测值

四、随机森林详解

4.1 随机森林和Bagging算法区别

随机森林(random forest,RF)基于Bagging算法的思想,做了一定的改进,即对特征进行了选择。

RF使用CART决策树作为弱学习器,但是RF对普通的CART决策树做了改进,普通的CART树选择最优特征作为决策树划分的条件;RF的CART决策树则是在训练数据的\(n\)个特征中随机选择\(n_{sub}\)特征,一般情况下\(n_{sub}<n\),然后在这\(n_{sub}\)个特征中选择最优特征作为决策树划分的条件。

如果\(n_{sub}=n\),则RF的决策树为普通的决策树;\(n_{sub}\)越小,则模型鲁棒性越好,模型方差也会减小,但模型对训练集的拟合程度会变差,反之,模型的偏差会变小,模型对训练集的泛化能力会变差。

五、随机森林拓展

RF在实际应用中不仅能解决分类和回归问题,还可以用于特征转换、异常点检测等。

5.1 Extra Trees

Extra Trees和RF的区别有以下两点:

  1. 对于每个决策树的训练集,RF采用的随机采样集;对于extra trees,每个决策树采用原始数据集
  2. RF会基于基尼系数、信息熵的方式,选择一个最优的特征值划分;extra teees则会随机选择一个特征值划分特征数

以上两点导致extra trees生成的随机森林的决策树规模一般会大于RF。即可以一定程度的减小模型的方差,增强模型的泛化能力。

# 使用ExtraTree判断特征重要性程度
from sklearn.datasets import make_friedman1
from sklearn.ensemble import ExtraTreesRegressor

X, y = make_friedman1(n_samples=100, n_features=10, random_state=0)

# 通过ExtraTreesRegressor模型获取每个特征的重要性
et = ExtraTreesRegressor(n_estimators=10)
et = et.fit(X, y)
print('10个特征各自的重要性:{}'.format(et.feature_importances_))
10个特征各自的重要性:[0.11488041 0.12557425 0.08477273 0.45483849 0.09753123 0.01384401
 0.0364967  0.0256125  0.01965904 0.02679065]

5.2 Totally Random Trees Embedding

Totally Random Trees Embedding(TRTE)是一种无监督学习的数据转换方式,它可以将低维的数据集映射到高维,在支持向量机中使用了核技巧将低维的数据映射到高维,TRTE提供了不同于核技巧的方法。

TRTE首先会构成一个类似RF的随机森林模型,模型定下来后模型中\(T\)个决策树的叶子节点位置也会被确定。

现在假设我们有3棵决策树,每个决策树有4个叶子节点,某个数据特征\(x\)划分到第1个决策树的第1个叶子节点,第2棵决策树的第2个节点,第3棵决策树的第4个节点,则\(x\)映射后的特征编码为\((1,0,0,0\quad0,1,0,0\quad0,0,0,1)\),由此既可以得到12维的高维特征。

5.3 Isolation Forest

Isolation Forest(IForest)可以检测异常点。

IForest类似于RF,但在随机采样的时候,IForest随机采样的数量并不是\(m\)个,而是远远小于训练集个数,因为IForest的作用是检测异常点,如果采样过多正确样本会掩盖掉异常点。

在划分特征的时候,IForest对划分特征随机选择一个划分阈值,并随机选择一个特征划分决策树。

由于IForest的样本数过少,IForest也会选择一个较小的最大决策树深度控制决策树的深度。

将测试样本\(x\)拟合到\(T\)棵决策树,计算每颗决策树上该样本的叶子节点的深度\(h_t(x)\),从而计算出平均高度,则样本点\(x\)的异常概率为
\[
s(x,m) = 2^{-{\frac{h(x)}{c(m)}}}
\]
其中\(m\)为样本个数,\(c(m)\)的表达式为
\[
c(m) = 2\ln(m-1)+\xi-2{\frac{m-1}{m}}
\]
其中\(\xi\)为欧拉常数,\(s(x,m)\)的取值范围是\([0,1]\),取值越接近1,测试样本点是异常点的概率越大。

六、随机森林流程

6.1 输入

\(m\)个样本\(n\)个特征的训练数据集\(D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\}\);弱学习器迭代次数为\(T\)。

6.2 输出

最终强学习器\(f(x)\)。

6.3 流程

  1. 对训练集进行第\(t\quad(t=1,2,\cdots,T)\)次随机采样,共采集\(m\)次,得到有\(m\)个样本的采样集\(D_t\)
  2. 用采样集\(D_t\)训练第\(t\)个决策树模型\(G_t(x)\),在训练决策树模型的时候,从\(n\)个特征中随机选择\(n_{sub}\)个特征,然后从\(n_{sub}\)个特征中选择最优的特征作为划分决策树的条件。
  3. 对于分类问题,使用相对多数投票法预测分类结果;对于回归问题,使用简单平均法得到预测值

七、随机森林优缺点

7.1 优点

  1. 由于弱学习器之间不存在依赖关系,所以可以并行训练模型,这对于大数据非常有优势
  2. 既可以解决回归问题又可以解决分类问题,灵活
  3. 由于在生成模型的时候,可以自由选择特征的划分,可以一定程度解决特征维度较高的问题
  4. RF相当于AdaBoost和GBDT,简单,看数学公式推导量就知道了
  5. 由多个不存在依赖关系的弱学习器结合而成,所以对部分特征缺失不敏感

7.2 缺点

  1. 由于决策树模型对特征进行了选择,因此取值划分较多的特征,会影响RF模型拟合的效果

八、小结

集成学习到这也算是告一段落了,相信大家对Boosting和Bagging算法有了很清晰的了解,对于Boosting中的AdaBoost和GBDT,由于逻辑较为复杂,可以多看一看;对于Bagging中的随机森林,随机森林本身并不是很难理解,只要能够很自如的运用随机森林的一些拓展算法即可。

原文地址:https://www.cnblogs.com/nickchen121/p/11686776.html

时间: 2024-10-02 03:01:14

04-10 Bagging和随机森林的相关文章

Bagging与随机森林算法原理小结

在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合.本文就对集成学习中Bagging与随机森林算法做一个总结. 随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力. 1.  bagging的原理 在集成学习原理小结中,我们给Bagging画了下面一张原理图. 从上图可以看出,

机器学习——Bagging与随机森林算法及其变种

Bagging算法: 凡解:给定M个数据集,有放回的随机抽取M个数据,假设如此抽取3组,3组数据一定是有重复的,所以先去重.去重后得到3组数据,每组数据量分别是s1,s2,s3,然后三组分别训练组合成一个强模型.如下图: 随机森林算法: 一般用于大规模数据,百万级以上的. 在Bagging算法的基础上,如上面的解释,在去重后得到三组数据,那么再随机抽取三个特征属性,选择最佳分割属性作为节点来创建决策树.可以说是 随机森林=决策树+Bagging 如下图 RF(随机森林)的变种: ExtraTre

Bagging(Bootstrap aggregating)、随机森林(random forests)、AdaBoost

引言 在这篇文章中,我会详细地介绍Bagging.随机森林和AdaBoost算法的实现,并比较它们之间的优缺点,并用scikit-learn分别实现了这3种算法来拟合Wine数据集.全篇文章伴随着实例,由浅入深,看过这篇文章以后,相信大家一定对ensemble的这些方法有了很清晰地了解. Bagging bagging能提升机器学习算法的稳定性和准确性,它可以减少模型的方差从而避免overfitting.它通常应用在决策树方法中,其实它可以应用到任何其它机器学习算法中.如果大家对决策树的算法不太

转载:scikit-learn随机森林调参小结

在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结.本文就从实践的角度对RF做一个总结.重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点. 1. scikit-learn随机森林类库概述 在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor.当然RF的变种Extra Trees也有, 分类类ExtraTreesC

随机森林(原理/样例实现/参数调优)

决策树 1.决策树与随机森林都属于机器学习中监督学习的范畴,主要用于分类问题. 决策树算法有这几种:ID3.C4.5.CART,基于决策树的算法有bagging.随机森林.GBDT等. 决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或叫特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策.新来的数据便可以根据这棵树进行判断.随机森林是一种通过多棵决策树进行优化决策的算法. 2.案例: 图 1 是一棵结构简单的决策树,用于预测贷款用户是否具有偿还贷款的能力.贷款用户主要具备三个

随机森林算法基础梳理

1.集成学习概念 在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好).集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来. 集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差(bagging).偏差(boosting)或改进预测(st

决策树 随机森林 adaboost

? 熵.互信息? 决策树学习算法 ? 信息增益 ? ID3.C4.5.CART? Bagging与随机森林? 提升 ? Adaboost/GDBT ? 熵.互信息 熵是对平均不确定性的度量. 平均互信息:得知特征Y的信息而使得对标签X的信息的不确定性减少的程度.描述随机变量之间的相似程度.(条件熵.相对熵:差异性) ? 决策树 决策树学习采用的是自顶向下的递归方法,有监督学习. 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类. 建立

机器学习与人工智障(5):决策树与随机森林

一.从LR到决策树 1.总体流程与核心问题 (1)决策树是基于树的结构进行决策: 每个"内部节点"对应于某个属性上的"测试" 每个分支对应于该测试的一种可能结果(即该属性上的每个取值) 每个叶节点对应于一个预测结果 (2)学习过程:通过对训练样本的分析来确定"划分属性"(即内部节点所对应的属性) (3)预测过程:将测试实例从根节点开始,沿着划分属性所构成的"判定测试序列"下行,直到叶节点 2.决策树的总体流程: (1):&qu

SIGAI机器学习第十九集 随机森林

讲授集成学习的概念,Bootstrap抽样,Bagging算法,随机森林的原理,训练算法,包外误差,计算变量的重要性,实际应用 大纲: 集成学习简介 Boostrap抽样 Bagging算法 随机森林的基本原理 训练算法 包外误差 计算变量的重要性 实验环节 实际应用 随机森林是一种集成学习的算法,构建在bootstrap采样基础之上的,bagging算法基于boostrap采样,与之对应的是boosting算法.随机森林是多颗决策树的集成,由于采用了bootstrip采样,在训练时有一部分样本