随机森林-笔录

决策树有些与生俱来的缺点:

1:分类规则复杂

决策树算法在产生规则的时候采用局部贪婪法。每次都只选择一个属性进行分析构造决策树,所以再产生的分类规则往往相当复杂。

2:收敛到非全局的局部最优解

ID3算法每次在树的某个层次进行属性选择时,它不再回溯重新考虑这个选择,所以它容易产生盲人登山中常见的风险,仅仅收敛到非全局的局部最优解。

3:过度拟合

在决策树学习中,由于分类器过于复杂,它可能会过于适应噪声,从而导致过度拟合问题。

为了克服以上的缺点,引入了另外一个预测模型-----随机森林

一:森林思想

单个的决策树可以按照一定的精度分类,为了提高精度,一种比较容易想到的方法就是种植一片森林,并让所有的树都参加投票,选出投票最多的分类标签。

下面举例说明:

我们根据历史数据建立起了一片由决策树组成的森林,下面我们要根据某个用户的特征来分析他是否会购买某件商品,分类标签只有两类:yes no。

假设100棵决策树中有90棵树给它贴的标签为yes,10棵给它贴的标签为no,那我们最后就选择标签yes.这样就避免了一棵树说了算的局面。

二:随机思想

随机森林的随机体现在它的每棵决策树的构造过程

随机森林的构造方法有很多,下面以bagging方法举例:

1:假设原始样本数为N,用bootstrap方法从N样本中获取构造每棵决策树的训练集。

bootstrap方法的实质就是一种自助法,一种非参数统计的方法:对观察的信息(这里指原始的样本)进行N次随机的可重复的采样,以此来获取构造每棵决策树的训练集。Bootstrap充分利用了给定的观测信息,不需要模型、其他假设和增加新的观测,并有稳定性和效率高的特点。

2:如果样本信息有M个属性,每次随机的从M个属性中选择m个属性来进行建树(建树过程跟普通决策树过程一样),其中m<<M.

3:这样每棵树的叶子节点,要么是无法继续分裂,要么里面的所有样本都指向同一个分类标签。

有了上面的随机性,这样建立起来的每一棵决策树都不会出现过度拟合的现象,也不需要裁枝处理。

小结:这样每一棵决策树就是一位精通某一领域(m个features)的专家,在随机森林中就有了很多精通不同领域的专家,对一个新问题,可以从不同的角度来观察,最终由各个专家,投票得到结果。

三:随机森林的特征

1:在现有算法中,随机森林算法的精度是无可比拟的。

2:随机森林能够高效处理大数据集。

3:随机森林可以处理成千上万的输入属性。

4:随机森林在分类的应用中可以计算出不同变量属性的重要性。

5:在构建随机森林的过程中可以产生一个关于泛化误差的内部无偏估计。

6:当大量数据缺失的时候,随机森林有高效的方法来估计缺失的数据并保持着准确率。

7:在不平衡的数据集中,它含有平衡误差的方法。

8:已经生成的随机森林可以保存下来方便解决以后的问题。

9:Prototypes的计算可以给出属性变量本身和分类的相关性。

10:计算样本实例之间的Proximities,可以用来聚类分析、异常分析、或者数据的其他有趣的视图。

上述能力可以拓展为无标签类数据,导出无监督聚类方法及数据视图和异常点检测。

随机森林在机器学习领域中的应用还是很多的,所以接下来得弄清楚,它背后的数学基础和各个特征的具体实现并用一些数据来感觉下它的强大。

继续记录自己的学习过程,方便以后的复习~come on~

原文地址:https://www.cnblogs.com/onemorepoint/p/9119605.html

时间: 2024-10-09 19:31:43

随机森林-笔录的相关文章

决策树 随机森林 adaboost

? 熵.互信息? 决策树学习算法 ? 信息增益 ? ID3.C4.5.CART? Bagging与随机森林? 提升 ? Adaboost/GDBT ? 熵.互信息 熵是对平均不确定性的度量. 平均互信息:得知特征Y的信息而使得对标签X的信息的不确定性减少的程度.描述随机变量之间的相似程度.(条件熵.相对熵:差异性) ? 决策树 决策树学习采用的是自顶向下的递归方法,有监督学习. 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类. 建立

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等.但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的. 模型组合(比如

mahout 随机森林RF算法

在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性 能解决分类与回归问题,并且都有很好的估计表现 1.生成数据说明文件 mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生成数据的说明文件) 2.训练模型 mahout buildforest -d input.csv -ds input.info -sl 5 -p -t 5 -o forest_result(生成随机森

随机森林

现在现将随机森林的学习的大纲进行列举: 1.决策树的算法: ID3,C4.5,CART,bagging,GBDT,RandomForest. 2.RandomForest的原理: 在m个样本中,有放回的随机抽取m个样本,作为训练集.将在n个特征中抽取k(k<n)个特征来构建决策树,通过构建T棵决策树组成随机森林.随机森林主要是建立在决策树的基础上的,通过一个随机的过程是不需要预剪枝和后剪枝的. 3.下载的代码.githup网址 4.算法流程图: 5.调优和集成: 后续有时间将其内容进行补充完整.

如何调整随机森林的参数达到更好的效果。

原文地址: https://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/ A month back, I participated in a Kaggle competition called TFI. I started with my first submission at 50th percentile. Having worked relentlessly on feature engineering f

决策树-预测隐形眼镜类型 (ID3算法,C4.5算法,CART算法,GINI指数,剪枝,随机森林)

1. 1.问题的引入 2.一个实例 3.基本概念 4.ID3 5.C4.5 6.CART 7.随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26. 女儿:长的帅不帅? 母亲:挺帅的. 女儿:收入高不? 母亲:不算很高,中等情况. 女儿:是公务员不? 母亲:是,在税务局上班呢. 女儿:那好,我去见见. 决策过程: 这个女孩的决策过程就是典型的分类树决策.

mllib之随机森林与梯度提升树

随机森林和GBTs都是集成学习算法,它们通过集成多棵决策树来实现强分类器. 集成学习方法就是基于其他的机器学习算法,并把它们有效的组合起来的一种机器学习算法.组合产生的算法相比其中任何一种算法模型更强大.准确. 随机森林和梯度提升树(GBTs).两者之间主要差别在于每棵树训练的顺序. 随机森林通过对数据随机采样来单独训练每一棵树.这种随机性也使得模型相对于单决策树更健壮,且不易在训练集上产生过拟合. GBTs则一次只训练一棵树,后面每一棵新的决策树逐步矫正前面决策树产生的误差.随着树的添加,模型

随机森林(分类与回归)

随机森林(可用于分类和回归) 随机森林主要应用于回归和分类. 随机森林在运算量没有显著提高的前提下提高了预测精度. 1.简介 随机森林由多棵决策树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定. 处理分类问题时,对于测试样本,森林中每棵决策树会给出最终类别,最后综合考虑森林内每一棵决策树的输出类别,以 投票方式来决定测试样本的类别:处理回归问题时,则以每棵决策树输出的均值为最终结果. 2.随机森林的随机性 体现在两个方面: Ⅰ:样本的随机性,从训练集中随机

第九篇:随机森林(Random Forest)

前言 随机森林非常像<机器学习实践>里面提到过的那个AdaBoost算法,但区别在于它没有迭代,还有就是森林里的树长度不限制. 因为它是没有迭代过程的,不像AdaBoost那样需要迭代,不断更新每个样本以及子分类器的权重.因此模型相对简单点,不容易出现过拟合. 下面先来讲讲它的具体框架流程. 框架流程 随机森林可以理解为Cart树森林,它是由多个Cart树分类器构成的集成学习模式.其中每个Cart树可以理解为一个议员,它从样本集里面随机有放回的抽取一部分进行训练,这样,多个树分类器就构成了一个