机器学习——随机森林算法及原理

1. 随机森林使用背景

1.1 随机森林定义

随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元共线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用(Breiman
2001b),被誉为当前最好的算法之一(Iverson et al. 2008)。

随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

1.2 随机森林优点

随机森林是一个最近比较火的算法,它有很多的优点:

a. 在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合

b. 在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林具有很好的抗噪声能力

c. 它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化

d. 可生成一个Proximities=(pij)矩阵,用于度量样本之间的相似性: pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数,N随机森林中树的颗数

e. 在创建随机森林的时候,对generlization error使用的是无偏估计

f. 训练速度快,可以得到变量重要性排序(两种:基于OOB误分率的增加量和基于分裂时的GINI下降量

g. 在训练过程中,能够检测到feature间的互相影响

h. 容易做成并行化方法

i. 实现比较简单

1.3 随机森林应用范围

随机森林主要应用于回归和分类。本文主要探讨基于随机森林的分类问题。随机森林和使用决策树作为基本分类器的(bagging)有些类似。以决策树为基本模型的bagging在每次bootstrap放回抽样之后,产生一棵决策树,抽多少样本就生成多少棵树,在生成这些树的时候没有进行更多的干预。而随机森林也是进行bootstrap抽样,但它与bagging的区别是:在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。因此,不但样本是随机的,连每个节点变量(Features)的产生都是随机的。

许多研究表明, 组合分类器比单一分类器的分类效果好,随机森林(random forest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。

2. 随机森林方法理论介绍

2.1 随机森林基本原理

随机森林由LeoBreiman(2001)提出,它通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点,然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择特征的数目。单棵树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类。

2.2 随机森林算法

2.2.1 决策树

决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

随机森林是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。

在建立每一棵决策树的过程中,有两点需要注意采样与完全分裂。首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为N个,那么采样的样本也为N个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。然后进行列采样,从M个feature中,选择m个(m << M)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一个重要的步骤——剪枝,但是这里不这样干,由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。

决策树中分裂属性的两个选择度量:

1)信息增益

随机森林模型任意样本分类的期望信息:

a) I(s1,s2,……,sm)=

∑Pi log2(pi)(i=1..m)

其中,数据集为S,m为S的分类数目,Pi≈|Si/|S|,Ci为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数

b) I(s1,s2,……,sm)越小,s1,s2,……,sm就越有序(越纯),分类效果就越好。

c) 由属性A划分为子集的熵:

A为属性,具有V个不同的取值, S被A 划分为V 个子集s1,s2,……,sv,sij是子集sj中类Ci的样本数。E(A)= ∑(s1j+ ……+smj)/s * I(s1j,……,smj)

d) 信息增益:Gain(A)= I(s1,s2,……,sm)

E(A)

e) 分裂属性选择规则:选择具有最大信息增益的属性为分裂属性

2)基尼指数

a) 集合T包含N个类别的记录,那么其Gini指标就是pj 类别j出现的频率

b) 如果集合T分成m部分 N1 , N2 ,…, Nm 。那么这个分割的Gini就是

c)分裂属性选择规则:选择具有最小Ginisplit的属性为分裂属性(对于每个属性都要遍历所有可能的分割方法)。

2.2.3 随机森林模型的注意点

设有N个样本,每个样本有M个features,决策树们其实都是随机地接受n个样本(对行随机取样)的m个feature(对列进行随机取样),每颗决策树的m个feature相同。每颗决策树其实都是对特定的数据进行学习归纳出分类方法,而随机取样可以保证有重复样本被不同决策树分类,这样就可以对不同决策树的分类能力做个评价。

2.2.4随机森林实现过程

随机森林中的每一棵分类树为二叉树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分;在二叉树中,根节点包含全部训练数据, 按照节点

纯度最小原则,分裂为左节点和右节点,它们分别包含训练数据的一个子集,按照同样的规则节点继续分裂,直到满足分支停止规则而停止生长。若节点n上的分类数据全部来自于同一类别,则此节点的纯度I(n)=0,

纯度度量方法是Gini准则,即假设P(Xj)是节点n上属于Xj 类样本个数占训练。

具体实现过程如下:

(1)原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据;

(2)设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量(mtry n
mall),然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;

(3)每棵树最大限度地生长, 不做任何修剪;

(4)将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。

3. 随机森林应用

由于R中早就出现randomForest包了,本文主要讨论R中随机森林的应用。两个主要函数比较重要:randomForest用来构建随机森林模型,predict()使用训练后的随机森林对新数据进行预测。

3.1目标

通过随机森林的算法,根据一些特征,例如花瓣的长,宽,花萼的长宽。来预测植株的种类。

3.2 准备的数据集

iris数据集,是R语言自带的数据集。

  1. Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
  2. 1            5.1         3.5          1.4         0.2     setosa
  3. 2            4.9         3.0          1.4         0.2     setosa
  4. 3            4.7         3.2          1.3         0.2     setosa
  5. 4            4.6         3.1          1.5         0.2     setosa
  6. 5            5.0         3.6          1.4         0.2     setosa
  7. 6            5.4         3.9          1.7         0.4     setosa
  8. 7            4.6         3.4          1.4         0.3     setosa
  9. 8            5.0         3.4          1.5         0.2     setosa
  10. 9            4.4         2.9          1.4         0.2     setosa
  11. 10           4.9         3.1          1.5         0.1     setosa
  12. 11           5.4         3.7          1.5         0.2     setosa
  13. 12           4.8         3.4          1.6         0.2     setosa
  14. 13           4.8         3.0          1.4         0.1     setosa
  15. 14           4.3         3.0          1.1         0.1     setosa
  16. 15           5.8         4.0          1.2         0.2     setosa
  17. 16           5.7         4.4          1.5         0.4     setosa
  18. 17           5.4         3.9          1.3         0.4     setosa
  19. 18           5.1         3.5          1.4         0.3     setosa
  20. 19           5.7         3.8          1.7         0.3     setosa
  21. 20           5.1         3.8          1.5         0.3     setosa
  22. 21           5.4         3.4          1.7         0.2     setosa
  23. 22           5.1         3.7          1.5         0.4     setosa
  24. 23           4.6         3.6          1.0         0.2     setosa
  25. 24           5.1         3.3          1.7         0.5     setosa
  26. 25           4.8         3.4          1.9         0.2     setosa
  27. 26           5.0         3.0          1.6         0.2     setosa
  28. 27           5.0         3.4          1.6         0.4     setosa
  29. 28           5.2         3.5          1.5         0.2     setosa
  30. 29           5.2         3.4          1.4         0.2     setosa
  31. 30           4.7         3.2          1.6         0.2     setosa
  32. 31           4.8         3.1          1.6         0.2     setosa
  33. 32           5.4         3.4          1.5         0.4     setosa
  34. 33           5.2         4.1          1.5         0.1     setosa
  35. 34           5.5         4.2          1.4         0.2     setosa
  36. 35           4.9         3.1          1.5         0.2     setosa
  37. 36           5.0         3.2          1.2         0.2     setosa
  38. 37           5.5         3.5          1.3         0.2     setosa
  39. 38           4.9         3.6          1.4         0.1     setosa
  40. 39           4.4         3.0          1.3         0.2     setosa
  41. 40           5.1         3.4          1.5         0.2     setosa
  42. 41           5.0         3.5          1.3         0.3     setosa
  43. 42           4.5         2.3          1.3         0.3     setosa
  44. 43           4.4         3.2          1.3         0.2     setosa
  45. 44           5.0         3.5          1.6         0.6     setosa
  46. 45           5.1         3.8          1.9         0.4     setosa
  47. 46           4.8         3.0          1.4         0.3     setosa
  48. 47           5.1         3.8          1.6         0.2     setosa
  49. 48           4.6         3.2          1.4         0.2     setosa
  50. 49           5.3         3.7          1.5         0.2     setosa
  51. 50           5.0         3.3          1.4         0.2     setosa
  52. 51           7.0         3.2          4.7         1.4 versicolor
  53. 52           6.4         3.2          4.5         1.5 versicolor
  54. 53           6.9         3.1          4.9         1.5 versicolor
  55. 54           5.5         2.3          4.0         1.3 versicolor
  56. 55           6.5         2.8          4.6         1.5 versicolor
  57. 56           5.7         2.8          4.5         1.3 versicolor
  58. 57           6.3         3.3          4.7         1.6 versicolor
  59. 58           4.9         2.4          3.3         1.0 versicolor
  60. 59           6.6         2.9          4.6         1.3 versicolor
  61. 60           5.2         2.7          3.9         1.4 versicolor
  62. 61           5.0         2.0          3.5         1.0 versicolor
  63. 62           5.9         3.0          4.2         1.5 versicolor
  64. 63           6.0         2.2          4.0         1.0 versicolor
  65. 64           6.1         2.9          4.7         1.4 versicolor
  66. 65           5.6         2.9          3.6         1.3 versicolor
  67. 66           6.7         3.1          4.4         1.4 versicolor
  68. 67           5.6         3.0          4.5         1.5 versicolor
  69. 68           5.8         2.7          4.1         1.0 versicolor
  70. 69           6.2         2.2          4.5         1.5 versicolor
  71. 70           5.6         2.5          3.9         1.1 versicolor
  72. 71           5.9         3.2          4.8         1.8 versicolor
  73. 72           6.1         2.8          4.0         1.3 versicolor
  74. 73           6.3         2.5          4.9         1.5 versicolor
  75. 74           6.1         2.8          4.7         1.2 versicolor
  76. 75           6.4         2.9          4.3         1.3 versicolor
  77. 76           6.6         3.0          4.4         1.4 versicolor
  78. 77           6.8         2.8          4.8         1.4 versicolor
  79. 78           6.7         3.0          5.0         1.7 versicolor
  80. 79           6.0         2.9          4.5         1.5 versicolor
  81. 80           5.7         2.6          3.5         1.0 versicolor
  82. 81           5.5         2.4          3.8         1.1 versicolor
  83. 82           5.5         2.4          3.7         1.0 versicolor
  84. 83           5.8         2.7          3.9         1.2 versicolor
  85. 84           6.0         2.7          5.1         1.6 versicolor
  86. 85           5.4         3.0          4.5         1.5 versicolor
  87. 86           6.0         3.4          4.5         1.6 versicolor
  88. 87           6.7         3.1          4.7         1.5 versicolor
  89. 88           6.3         2.3          4.4         1.3 versicolor
  90. 89           5.6         3.0          4.1         1.3 versicolor
  91. 90           5.5         2.5          4.0         1.3 versicolor
  92. 91           5.5         2.6          4.4         1.2 versicolor
  93. 92           6.1         3.0          4.6         1.4 versicolor
  94. 93           5.8         2.6          4.0         1.2 versicolor
  95. 94           5.0         2.3          3.3         1.0 versicolor
  96. 95           5.6         2.7          4.2         1.3 versicolor
  97. 96           5.7         3.0          4.2         1.2 versicolor
  98. 97           5.7         2.9          4.2         1.3 versicolor
  99. 98           6.2         2.9          4.3         1.3 versicolor
  100. 99           5.1         2.5          3.0         1.1 versicolor
  101. 100          5.7         2.8          4.1         1.3 versicolor
  102. 101          6.3         3.3          6.0         2.5  virginica
  103. 102          5.8         2.7          5.1         1.9  virginica
  104. 103          7.1         3.0          5.9         2.1  virginica
  105. 104          6.3         2.9          5.6         1.8  virginica
  106. 105          6.5         3.0          5.8         2.2  virginica
  107. 106          7.6         3.0          6.6         2.1  virginica
  108. 107          4.9         2.5          4.5         1.7  virginica
  109. 108          7.3         2.9          6.3         1.8  virginica
  110. 109          6.7         2.5          5.8         1.8  virginica
  111. 110          7.2         3.6          6.1         2.5  virginica
  112. 111          6.5         3.2          5.1         2.0  virginica
  113. 112          6.4         2.7          5.3         1.9  virginica
  114. 113          6.8         3.0          5.5         2.1  virginica
  115. 114          5.7         2.5          5.0         2.0  virginica
  116. 115          5.8         2.8          5.1         2.4  virginica
  117. 116          6.4         3.2          5.3         2.3  virginica
  118. 117          6.5         3.0          5.5         1.8  virginica
  119. 118          7.7         3.8          6.7         2.2  virginica
  120. 119          7.7         2.6          6.9         2.3  virginica
  121. 120          6.0         2.2          5.0         1.5  virginica
  122. 121          6.9         3.2          5.7         2.3  virginica
  123. 122          5.6         2.8          4.9         2.0  virginica
  124. 123          7.7         2.8          6.7         2.0  virginica
  125. 124          6.3         2.7          4.9         1.8  virginica
  126. 125          6.7         3.3          5.7         2.1  virginica
  127. 126          7.2         3.2          6.0         1.8  virginica
  128. 127          6.2         2.8          4.8         1.8  virginica
  129. 128          6.1         3.0          4.9         1.8  virginica
  130. 129          6.4         2.8          5.6         2.1  virginica
  131. 130          7.2         3.0          5.8         1.6  virginica
  132. 131          7.4         2.8          6.1         1.9  virginica
  133. 132          7.9         3.8          6.4         2.0  virginica
  134. 133          6.4         2.8          5.6         2.2  virginica
  135. 134          6.3         2.8          5.1         1.5  virginica
  136. 135          6.1         2.6          5.6         1.4  virginica
  137. 136          7.7         3.0          6.1         2.3  virginica
  138. 137          6.3         3.4          5.6         2.4  virginica
  139. 138          6.4         3.1          5.5         1.8  virginica
  140. 139          6.0         3.0          4.8         1.8  virginica
  141. 140          6.9         3.1          5.4         2.1  virginica
  142. 141          6.7         3.1          5.6         2.4  virginica
  143. 142          6.9         3.1          5.1         2.3  virginica
  144. 143          5.8         2.7          5.1         1.9  virginica
  145. 144          6.8         3.2          5.9         2.3  virginica
  146. 145          6.7         3.3          5.7         2.5  virginica
  147. 146          6.7         3.0          5.2         2.3  virginica
  148. 147          6.3         2.5          5.0         1.9  virginica
  149. 148          6.5         3.0          5.2         2.0  virginica
  150. 149          6.2         3.4          5.4         2.3  virginica
  151. 150          5.9         3.0          5.1         1.8  virginica

R 源代码:

  1. library( ”randomForest” )
  2. data(iris)
  3. set.seed(100)
  4. ind=sample(2,nrow(iris),replace=TRUE,prob=c(0.8,0.2))
  5. iris.rf=randomForest(Species~.,iris[ind==1,],ntree=50,nPerm=10,mtry=3,proximity=TRUE,importance=TRUE)
  6. print(iris.rf)
  7. iris.pred=predict( iris.rf,iris[ind==2,] )
  8. table(observed=iris[ind==2,"Species"],predicted=iris.pred )

3.4 一些重要参数说明

randomForest()对训练集的数据进行处理,生成决策树

iris.rf=randomForest(Species~.,iris[ind==1,],ntree=50,nPerm=10,mtry=3,proximity=TRUE,importance=TRUE)

Species~.:代表需要预测的列,species是列的名称。

iris[ind==1,]:生成决策树的训练集

ntree:生成决策树的数目

nperm:计算importance时的重复次数

mtry:选择的分裂属性的个数

proximity=TRUE:表示生成临近矩阵

importance=TRUE:输出分裂属性的重要性

predict()

iris.pred=predict( iris.rf,iris[ind==2,] )

iris.rf:表示生成的随机森林模型

iris[ind==2,] :进行预测的测试集

3.5预测结果

  1. predicted
  2. served     setosa versicolor virginica
  3. setosa         35          0         0
  4. versicolor      0         37         1
  5. virginica       0          3        33
  6. virginica     0        3       33

想要了解更多,请扫描关注数据分析师Nieson的微信公众号!

时间: 2024-07-31 14:10:38

机器学习——随机森林算法及原理的相关文章

spark 随机森林算法案例实战

随机森林算法 由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理.图 3 给出了随机森林算法分类原理,从图中可以看到,随机森林是一个组合模型,内部仍然是基于决策树,同单一的决策树分类不同的是,随机森林通过多个决策树投票结果进行分类,算法不容易出现过度拟合问题. 图 3

Bagging与随机森林算法原理小结

在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系.另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合.本文就对集成学习中Bagging与随机森林算法做一个总结. 随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力. 1.  bagging的原理 在集成学习原理小结中,我们给Bagging画了下面一张原理图. 从上图可以看出,

R语言︱机器学习模型评估方案(以随机森林算法为例)

R语言︱机器学习模型评估方案(以随机森林算法为例) 笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评价模型的方式. 常见的应用在监督学习算法中的是计算平均绝对误差(MAE).平均平方差(MSE).标准平均方差(NMSE)和均值等,这些指标计算简单.容易理解:而稍微复杂的情况下,更多地考虑的是一些高大上的指标,信息熵.复杂度和基尼值等等. 本篇可以用于情感挖

【机器学习基础】随机森林算法

引入 我们回顾一下之前学习的两个算法,Bagging算法中,通过bootstrapping得到不一样的数据,通过这些数据送到一个基本算法之后,得到不同的g,最后对这些g取平均得到G:决策树算法中,通过递归方式建立子树,最终得到一棵完整的树. 这两种算法都有其鲜明的特点,决策树对于不同的数据相对会敏感一些,即其算法的variance很大,而Bagging的特点是通过投票和平均的方式来降低variance的效果.如果将这两种方法结合起来,就是该文要介绍的随机森林,random forest. 1.

机器学习——Bagging与随机森林算法及其变种

Bagging算法: 凡解:给定M个数据集,有放回的随机抽取M个数据,假设如此抽取3组,3组数据一定是有重复的,所以先去重.去重后得到3组数据,每组数据量分别是s1,s2,s3,然后三组分别训练组合成一个强模型.如下图: 随机森林算法: 一般用于大规模数据,百万级以上的. 在Bagging算法的基础上,如上面的解释,在去重后得到三组数据,那么再随机抽取三个特征属性,选择最佳分割属性作为节点来创建决策树.可以说是 随机森林=决策树+Bagging 如下图 RF(随机森林)的变种: ExtraTre

web安全之机器学习入门——3.2 决策树与随机森林算法

目录 简介 决策树简单用法 决策树检测P0P3爆破 决策树检测FTP爆破 随机森林检测FTP爆破 简介 决策树和随机森林算法是最常见的分类算法: 决策树,判断的逻辑很多时候和人的思维非常接近. 随机森林算法,利用多棵决策树对样本进行训练并预测的一种分类器,并且其输出的类别是由个别决策树输出的类别的众数决定. 决策树简单用法 使用sklearn自带的iris数据集 # -*- coding: utf-8 -*- from sklearn.datasets import load_iris from

R语言︱决策树族——随机森林算法

笔者寄语:有一篇<有监督学习选择深度学习还是随机森林或支持向量机?>(作者Bio:SebastianRaschka)中提到,在日常机器学习工作或学习中,当我们遇到有监督学习相关问题时,不妨考虑下先用简单的假设空间(简单模型集合),例如线性模型逻辑回归.若效果不好,也即并没达到你的预期或评判效果基准时,再进行下换其他更复杂模型来实验. ---------------------------------------------- 一.随机森林理论介绍 1.1 优缺点 优点. (1)不必担心过度拟合

随机森林算法OOB_SCORE最佳特征选择

Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征组合,减少特征冗余: 原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(Out_of_bag)袋外样本,通过袋外样本,可以评估这个树的准确度,其他子树叶按这个原理评估,最后可以取平均值,即是随机森林算法的性能: 特征选择原理:因为袋外样本的存在,因此不需要进行十字交叉测试(节省时间),通过依次对每个特征赋予一个随机数,观察算法性能的变化,倘若变

随机森林 算法过程及分析

简单来说,随机森林就是Bagging+决策树的组合(此处一般使用CART树).即由很多独立的决策树组成的一个森林,因为每棵树之间相互独立,故而在最终模型组合时,每棵树的权重相等,即通过投票的方式决定最终的分类结果. 随机森林算法主要过程: 1.样本集的选择. 假设原始样本集总共有N个样例,则每轮从原始样本集中通过Bootstraping(有放回抽样)的方式抽取N个样例,得到一个大小为N的训练集.在原始样本集的抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例. 共进行k轮的抽取,