机器学习技法(10)--Random Forest

随机森林是将bagging和decision tree结合在一起的算法。

random forest同样也继承了两个算法的优点，但是同时也解决了过拟合的缺点。

通过降维的方式来提高运算的速度。

每一个低维度的空间都可以看成是原feature的一个线性组合，由高维度向低维度的转换的过程是随机的，这样又增加了一层随机性。

但是在bagging产生g的时候，总有一些feature的组合没有被选过（out-of-bag），而另一些组合被选择了多次。

假设N‘轮之后还有一些数据没有被选到过，这些数据的概率是1/3：

蓝色的数据已经用来产生g，而红色的OOB的特征很像用来做validation的数据。但是并不常用。因为g的验证并没有什么意义，我们要的的ensemble的hypothesis。

某一个红色的OOB可以被当做某个G‘的validation的数据，G‘由所有的没有用到该红色OOB的g ensemble而成。进而，把所有的G‘平均起来。

下面介绍Random Forest的feature selection：

我们需要把重复和无关的feature移除掉。

虽然特征选择很好，但是如何进行特征选择很麻烦。在随机森林中，通过验证重要的数据和不重要的数据的表现来确定哪些是重要的数据。

permutation test：假设有N个样本，d个维度的数据，我们想要看一下第i个维度的feature的重要性，可以把这些所有的样本的第i个维度的feature都打乱，再看一下打乱前后performance的差异。

为了避免多次的重新训练和validation的过程，在validation的时候进行打乱的动作。

总结：

时间： 2024-11-07 15:31:46

机器学习技法(10)--Random Forest的相关文章

coursera机器学习技法笔记(9-11)——decision tree & Random forest & GBDT

9 Decision Tree 9.1 Decision Tree Hypothesis 本节主要讲述了决策树的两种解释,一种是决策树是由叶子节点和路径组成的,当选择叶子节点对应的路径时采用对应的叶子节点结果:另一种观点是由分叉的树递归组成,当选择某一分支时将采用分支对应的子树的演算法结果. 决策树的优点在于可解释性强,高效.缺点是理论保证不足,并且算法多样. 9.2 Decision Tree Algoithm 决策树主要有4个关键部分: (1)分支分成几支? (2)该怎么分支? (3)什么时

10.机器学习技法--Random Forest

Lecture 10:Random Forest 10.1 Random Forest Algorithm 10.2 Out-of-Bag Estimate 10.3 Feature Selection 10.4 Random Forest in Action 题外话: T1:Tree ! Tree ! Treeeeeee ! 始于 DT,兴于 RF, 终于 GBDT !!!!!!!!!!!!!!!!!!!!!!!!!! 原文地址:https://www.cnblogs.com/tmortred

【Random Forest】林轩田机器学习技法

总体来说,林对于random forest的讲解主要是算法概况上的:某种程度上说,更注重insights. 林分别列举了Bagging和Decision Tree的各自特点: Random Forest就是这二者的结合体. 1)便于并行化 2)保留了C&RT的优势 3)通过bagging的方法削弱了fully-grown tree的缺点这里提到一个insights:如果各个分类器的diversity越大,aggregation之后的效果可能就越好. 因此,Random Forest不仅样本是b

paper 56 ：机器学习中的算法：决策树模型组合之随机森林（Random Forest）

周五的组会如约而至,讨论了一个比较感兴趣的话题,就是使用SVM和随机森林来训练图像,这样的目的就是在图像特征之间建立内在的联系,这个model的训练,着实需要好好的研究一下,下面是我们需要准备的入门资料: [关于决策树的基础知识参考:http://blog.csdn.net/holybin/article/details/22914417] 在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,所以叫做随机森林.随机森林中的决策树之间是没有关联的,当测试数据进入随机森

【机器学习】随机森林 Random Forest 得到模型后，评估参数重要性

在得出random forest 模型后,评估参数重要性 importance() 示例如下特征重要性评价标准 %IncMSE 是 increase in MSE.就是对每一个变量比如 X1 随机赋值, 如果 X1重要的话, 预测的误差会增大,所以误差的增加就等同于准确性的减少,所以MeanDecreaseAccuracy 是一个概念的. IncNodePurity 也是一样, 如果是回归的话, node purity 其实就是 RSS(残差平方和residual sum of squar

机器学习技法课之Aggregation模型

Courses上台湾大学林轩田老师的机器学习技法课之Aggregation 模型学习笔记. 混合(blending) 本笔记是Course上台湾大学林轩田老师的<机器学习技法课>的学习笔记,用于学习之后的一些总结. 首先,对于Aggregation模型,其基本思想就是使用不同的 g t 来合成最后的预测模型 G t . 对于合成的方式主要有四种: 方法数学描述 1. 选择.选择最值得可信的 g t 来当做最终的模型,而这个 gt 可以使用validation set 来进行选择 $$G(x)

随机森林（Random Forest）详解（转）

来源: Poll的笔记 cnblogs.com/maybe2030/p/4585705.html 1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性.最初,我是在参加校外竞赛时接触到随机森林算法的.最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛.2014年阿里巴巴天池大数据竞赛

随机森林（Random Forest）

阅读目录 ?1 什么是随机森林? ?2 随机森林的特点 ?3 随机森林的相关基础知识 ?4 随机森林的生成 ?5 袋外错误率(oob error) ?6 随机森林工作原理解释的一个简单例子 ?7 随机森林的Python实现 ?8 参考内容 1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性

【作业四】林轩田机器学习技法 + 机器学习公开新课学习个人体会

这次作业的coding任务量比较大,总的来说需要实现neural network, knn, kmeans三种模型. Q11~Q14为Neural Network的题目,我用单线程实现的,运行的时间比较长,因此把这几道题的正确答案记录如下: Q11: 6 Q12: 0.001 Q13: 0.01 Q14: 0.02 ≤ Eout ≤ 0.04 其中Q11和Q14的答案比较明显,Q12和Q13有两个答案比较接近(参考了讨论区的内容,最终也调出来了) neural network的代码实现思路如下: