机器学习:用随机森林来选择特征

?
?

引言

?
?

之前了解到决策树在选择最好的特征进行数据集的划分就说到这种方法可以用来进行特征选择,然后看了breiman主页上相关的介绍,觉得这不愧是权威啊,不愧是随机森林算法的提出者,讲的很清楚,网址如下

?
?

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

?
?

?
?

特征重要性

?
?

在随机森林中某个特征X的重要性的计算方法如下:

?
?

首先对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1.这样每棵决策树可以得到一个errOOB1,K棵决策树就由K个errOOB1

?
?

然后就是要遍历所有的特征,来考察该特征的重要性,考察重要性的方式是,随机地对袋外数据OOB所有样本的特征X加入噪声干扰(可以理解为随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为errOOB2.这样每棵决策树可以得到一个errOOB2,K棵决策树就由K个errOOB2

?
?

之所以可以用这个表达式来作为相应特征的重要性的度量值是因为:若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。

?
?

那么对于特征X的重要性=∑(errOOB2-errOOB1)/Ktree,

时间: 2024-12-31 04:01:27

机器学习:用随机森林来选择特征的相关文章

【火炉炼AI】机器学习007-用随机森林构建共享单车需求预测模型

[火炉炼AI]机器学习007-用随机森林构建共享单车需求预测模型 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 ) 共享单车是最近几年才发展起来的一种便民交通工具,基本上是我等屌丝上班,下班,相亲,泡妞必备神器.本项目拟使用随机森林回归器构建共享单车需求预测模型,从而查看各种不同的条件下,共享单车的需求量. 1. 准备数据集 本次使用的数据集来源于加利福尼亚大学欧文分校(UCI)大学的公

机器学习之随机森林(一)

如果大家想学人工智能的话,那么就一定不能够忽视有关机器学习的内容.这时候就会有人问,什么是机器学习?所谓机器学习就是一门多领域交叉学科,涉及概率论.统计学.逼近论等多门学科.机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的一门技术,而机器学习中随机森林是一个十分重要的算法,在这篇文章中我们就详细给大家介绍一下随机森林的相关知识. 一般来说,随机森林是用于分类和回归的监督式集成学习模型.为了要使整体性能更好,因此集成学习模型

机器学习:随机森林

? ? 引言 ? ? 随机森林在机器学习实战中没有讲到,我是从伯克利大学的一个叫breiman的主页中看到相关的资料,这个breiman好像是随机森林算法的提出者,网址如下 ? ? http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ? ? 随机森林算法简介 ? ? 随机森林说白了就是很多个决策树组成在一起,就形成了森林,关键在于如何创建森林里的每一棵树,随机森林用到的方法bootstrap法,通俗的讲就是有放回的抽取样

机器学习技法-随机森林(Random Forest)

课程地址:https://class.coursera.org/ntumltwo-002/lecture 重要!重要!重要~ 一.随机森林(RF) 1.RF介绍 RF通过Bagging的方式将许多个CART组合在一起,不考虑计算代价,通常树越多越好. RF中使用CART没有经过剪枝操作,一般会有比较大的偏差(variance),结合Bagging的平均效果可以降低CART的偏差. 在训练CART的时候,使用有放回的随机抽取样本(bootstraping).随机的抽取样本的特征.甚至将样本特征通过

机器学习入门-随机森林温度预测的案例

在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features)  # 将数据中的文字标签转换为one-hot编码形式,增加了特征的列数 3. rf.feature_importances 探究了随机森林样本特征的重要性,对其进行排序后条形图 代码: 第一步:数据读取,通过.describe() 查看数据是否存在缺失值的情况 第二步:对年月日特征进行字符串串接,使

【机器学习】随机森林 Random Forest 得到模型后,评估参数重要性

在得出random forest 模型后,评估参数重要性 importance() 示例如下 特征重要性评价标准 %IncMSE 是 increase in MSE.就是对每一个变量 比如 X1 随机赋值, 如果 X1重要的话, 预测的误差会增大,所以 误差的增加就等同于准确性的减少,所以MeanDecreaseAccuracy 是一个概念的. IncNodePurity 也是一样, 如果是回归的话, node purity 其实就是 RSS(残差平方和residual sum of squar

机器学习——Bagging与随机森林算法及其变种

Bagging算法: 凡解:给定M个数据集,有放回的随机抽取M个数据,假设如此抽取3组,3组数据一定是有重复的,所以先去重.去重后得到3组数据,每组数据量分别是s1,s2,s3,然后三组分别训练组合成一个强模型.如下图: 随机森林算法: 一般用于大规模数据,百万级以上的. 在Bagging算法的基础上,如上面的解释,在去重后得到三组数据,那么再随机抽取三个特征属性,选择最佳分割属性作为节点来创建决策树.可以说是 随机森林=决策树+Bagging 如下图 RF(随机森林)的变种: ExtraTre

集成模型——随机森林

本文的数据集和上一篇一样,是美国个人收入信息.在上一篇末尾提到了随机森林算法,这一篇就介绍随机森林. Ensemble Models 随机森林是一种集成模型(Ensemble Models),集成模型结合了多个模型然后创建了一个精度更高的模型 下面我们创建两个决策树,他们的参数不相同,然后计算他们的预测精度: from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import roc_auc_score colu

ML—随机森林·1

Introduction to Random forest(Simplified) With increase in computational power, we can now choose algorithms which perform very intensive calculations. One such algorithm is “Random Forest”, which we will discuss in this article. While the algorithm