Stacked Regression的详细步骤和使用注意事项

声明:这篇博文是我基于一篇网络文章翻译的,并结合了自己应用中的一些心得,如果有侵权,请联系本人删除。

最近做推荐的时候,开始接触到Stacking方法,在周志华老师的西瓜书中,Stacking方法是在Bagging,Bosting方法后的模型集成方法,和投票法,简单平均法,加权平均法等方法在同一个讨论框架中。在网上查资料,也有学者认为Stacking方法是和Bagging,Bosting方法在同一个讨论框架中,我个人更加赞成周志华老师的论断,因为Stacking必须在模型差异较大,最好是不同模型,各有侧重的情况下,可能能够得到更好的集成效果,而Bagging和Bosting通常都是用的同一类模型,只是在训练样本上有所不同。

关于Stacking的学习资料有很多,下面罗列我找到的一些资料:

1. 首先要看的是Breiman的stacked regression,这是Stacking方法的提出论文;

2. Alexander K. Seewald等对stacked regression进行了改进,《How to Make Stacking Better and Faster While Also Taking Care of an Unknown Weakness》;

3. 如果对weka比较熟悉,Weka中实现了Stacking和StackingC,但是Weka默认的metaClassifier是ZeroR,不修改的话肯定试不出效果,要改成Linear Regression模型,而且要用Ridge regression选项,将Ridge的参数保持默认的值(1.0e-8)就可以了。

下面是我根据一篇博文翻译而来,这篇文章对Stacking方法的具体实现进行了详细阐述,还有代码实现,感谢原作者提供的很好的学习资料,原文地址:

http://blog.kaggle.com/2016/12/27/a-kagglers-guide-to-model-stacking-in-practice/

Introduction

Stacking(又叫做meta ensembling) 是利用多个模型的输出集成起来产生新模型的一种模型集成技术。由于集成后模型的平滑特性,通常集成后的模型能够在性能上优于任何一个用于集成的Base模型。并且集成的模型侧重表现好的模型,不信任(discredit)表现不好的模型。因此,stacking方法对于差别很大的基础模型,集成的有效性更佳。作者在这里提供一个简单的例子,演示stacking在具体实现时的方法。这篇文章的代码和数据可以参考网址:

https://github.com/ben519/MLPB

Motivation

假设四个人扔187个飞镖。其中150个飞镖观察是谁扔的,扔到了哪里(训练数据)。剩下的作为测试数据,知道飞镖的位置。我们的学习任务是根据飞镖的位置,猜测是谁扔的。

K-近邻(基础模型1)

首先我们用K-近邻模型尝试解决这个分类问题。为了选出最好的K值,我们用了5-折交叉验证和网格搜索方法检验K=(1,2,。。。。30).伪代码如下:

1.将训练数据等分为5份。这些就是测试数据集(test folds).

2.For K=1,2,...,10

1) 对每一个测试集(test fold)

a. 合并另外四个fold生成训练集合;

b.用当前的K值,在当前的训练集合上训练一个K-近邻模型;

c.对测试集进行预测,并评估预测结果的正确率。

2)计算上述5个不同测试集合的平均正确率。

3.将交叉验证得到的最好平均正确率的K值保存起来。

在我们的数据集上发现K=1能够获得最好的交叉验证准确率(平均正确率67%)。用K=1,我们在所有的训练数据上训练一个模型然后对测试数据进行预测。

最终我们得到了分类准确率70%的结果。

支撑向量机(基础模型2)

现在我们尝试用支撑向量机来解决预测问题。此外,我们加入了一维新的特征——DistFromCenter——用于衡量点到飞盘中心的距离,从而帮助数据能够线性可分。

用R语言的LiblinearR包,我们有两个超参数需要调试:

type

  1. L2-正则化L2-损失支撑向量机分类(对偶问题)
  2. L2-正则化L2-损失支撑向量机分类(原始问题)
  3. L2-正则化L1-损失支撑向量机分类(对偶问题)
  4. support vector classification by Crammer and Singer
  5. L1-正则化L2-损失支撑向量机分类

Cost

正则化常数的倒数。

参数组合的网格我们将尝试笛卡尔乘积,也就是用5个svm的类型(types)和Cost值取(0.01,0.1, 1, 10, 100, 1000, 2000).也就是:

同样地,用交叉验证和网格搜索方法,我们找到了最好的超参数是type=4以及cost=100.又一次,我们用这些参数在所有训练数据上训练模型,并在

测试数据上做测试。交叉验证的准确率为61%,测试数据集上78%的准确率。

模型叠加(Meta Ensembling, 元集成)

让我们来看一下每个模型对问题给出的分类边界,这个分类问题中一共有四个类别:Bob, Sue, Mark和Kate。

正如我们所料,SVM将Bob和Sue之间的投掷点分得不错,但是把Kate和Mark之间的投掷点分得很差。当然考察KNN能够得到类似的结论,KNN将Kate和Mark分得很好,但是将Bob和Sue的投掷点分得很差。也就是说,模型叠加有可能取得更好的效果。这里的启示:我们做Stacking之前也应该评估一下模型之间的差异性,如果是差异很大的模型(不同的模型各有所长),Stacking就能够取得很大的效果。

否则,效果提升可能就会很小。

(具体做法是画一个图:横轴是列表的位置,从1......n,表示样本根据得分排序后,列表总共的序。纵轴是docID,且只画label大于0的样本。一个用火柴棍,一个用点。

如果两个模型的结果上,棍的顶点和点重合的很多,就说明模型的差异不大,A模型排得好的,B模型也排得好,只是整体性能有差异,那么就选最好的模型就可以了。

如果不是,那么Stacking就值得做。)

以上述分类问题为例,Stacking的具体步骤是:

  1. 将训练数据分为5份,叫做test fold

  1. 定义一个数据集叫做train_meta,和训练数据集有相同的原始Id和fold id,加上两个空的列M1和M2.同样地,生成一个测试集叫做test_meta,和测试集合有相同的原始Id,加上两列,M1和M2.

  1. 对于每一个交叉验证集

    {Fold1, Fold2, ..., Fold5}

    3.1 将另外的4个CV集合合并用作训练CV集合;

          3.2 对于每一个Base模型

M1: K近邻模型(K=1)

M2:SVM(type=4, cost=1000)

3.2.1 用training fold训练Base模型,并对test fold进行预测。将这些预测值保存在train_meta中用作stacking model的feature。

  1. 用所有的训练数据训练Base模型,并对测试数据进行预测。将这些预测值保存在test_meta中。

  1. 训练一个新的模型,S(也就是stacking 模型),用M1和M2当作特征,当然,也可以原来数据中的其他特征也用上。

S:Logistic Regression

  1. 用stacked model S对test_meta做预测。

这里我们用了Base模型的预测值作为stacked模型的特征,因此stacked模型能够知道每一个Base模型在哪些样本上表现得好,哪些样本上表现不好。此外,还有一点要注意,train_meta中每一个样本的预测值都不依赖自身产生(否则就会过拟合,理论上,这里用留一法的效果会最好。)

对于test_meta的stacked特征,我们有另外一种生成方式。用交叉验证得到的5个Base模型分别对test_meta数据打分,最后5个得分平均得到最后的M1和M2,这样做的好处是节省时间,因为我们不需要用所有的训练数据训练Base模型,但是这样做的弊端是基础模型在测试数据上预测的准确度要差一些。

Stacked模型的超参数调整

我们应该如何调整stacked模型的超参数呢?对于base模型,我们能够用交叉验证+网格搜索确定超参数。对于stacked模型,如果我们也用相同的数据切分方法进行超参数的调整,就会有问题。当然,换成别的数据切分方法也同样有问题。那么是什么问题呢?

假设我们用之前的数据划分,用{fold2, fold3, fold4, fold5}训练staked模型S,然后在fold1上评估效果,那么问题就来了,fold2,fold3,fold4,fold5的stacked特征都是fold1参与产生的。我们用fold1参与生成特征又在fold1上验证,就产生了过拟合。最终可能导致stacked模型的超参数,在测试集上的效果可能很不好。

实际应用中,这个问题其实无法避免,但是我们应该知道这个问题的存在。

Stacking Model的模型选择和特征选择

我们如何知道用什么模型作为stacker,除了stacked特征,应该选择哪些原始特征用到stacked模型的训练中呢?在作者的眼中,stacked模型和stacked特征的选择都更像是艺术而不是科学。

Stacking实践

原作者通常会在Kaggle机器学习竞赛中用到stacking方法。在实际的Business中,stacking方法要增加许多复杂性来换取一点点性能提升。不过还好,stacking方法通常能够获得比单独的模型更好的性能,而且不用考虑模型的选择。就是计算量大了点儿。

时间: 2024-11-05 18:58:58

Stacked Regression的详细步骤和使用注意事项的相关文章

OGG新增表下发详细步骤及相关注意事项

背景: 工作任务OGG新增下发表,根据系统架构,数据下发流程为:系统A --> 系统B --> 系统C 系统A:在与系统B相关的抽取进程(EXTSJXF)的参数文件中新增相关表,在与系统B相关的投递进程(DPDJZSJ1)的参数文件中新增相关表. 系统B:复制进程(REPDJZ2)的参数文件中新增相关表,进行应用,在与系统C相关的抽取进程(EXTJHXT1)的参数文件中新增下发表,同理,投递进程(DPJHSJ1)亦需要在进程参数文件中新增表 系统C:复制进程(REPJHXT1)参数文件新增相关

Oracle11g安装详细步骤

Oracle11g安装详细步骤,详见附件↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

VS2012/13本地发布网站详细步骤(可带数据库)

VS发布网站详细步骤 要在本地(自己的额电脑上)发布网站,首先你必须要搭建一个IIS服务器(具体搭建方法可参考我的上一篇博客).下面是具体步骤: 1.打开你的VS2012网站项目,右键点击项目>菜单中 重新生成一下网站项目:再次点击右键>发布 2.弹出网站发布设置面板,点击<新建..>,创建新的发布配置文件(配置文件可以随便写自己命名): 3.点击下一步:在发布方法中选"文件系统",这样我们可以发布到自己指定的本机文件上. 4.选择网站要发布的物理地址(可以使C

在CentOS6.4中安装配置LAMP环境的详细步骤

原文:在CentOS6.4中安装配置LAMP环境的详细步骤 本文详细介绍了CentOS6.4系统中安装LAMP服务并对其进行配置的过程,即安装Apache+PHP+Mysql,参照了网上大神的设置,其他Linux发行系统可以参考~ 在本文中部分命令操作需要root权限,输入‘su -’命令后输入密码即可切换root身份. 一.修改设置对安装做准备 1. 防火墙设置 设置/etc/sysconfig/iptables文件允许80端口和3306端口.因为80端口是http协议所使用的端口,如果防火墙

oracle 11g R2 64位 安装详细步骤

(oracle 11g R2 64位 + PLSQLDeveloper安装说明以及PLSQL Developer+ ORCALE11-instantclient-basic-win32-11.2.0.1.0连接oracle 11g R2 64位详细步骤) 第一步: 准备工具 1.oracle 11g R2 64位安装包 2.PLSQL Developer v11.0.2.1766 官方中文版(内含PLSQL Developer安装程序.汉化程序.PLSQL Developer注册程序.PLSQL

iOS 真机调试(史上最详细步骤解析,hmt精心打造)

/*************************************************************1********************************************************************/ /*************************************************************2******************************************************

FAILOVER详细步骤

FAILOVER详细步骤 1.Flush主库任何未传输的redo到目标备库 如果primary可以mount,则可以flush任何主库的未传输redo到备库,如果操作成功返回,则可以保证failover的零数据丢失. 1)确保standby数据库启用日志应用 2)mount primary数据库,执行以下SQL语句,命令等待standby应用redo完成后返回. SQL> alter system flush redo to target_db_unique_name; 如果成功返回,则转第5步

请问android使用友盟分享,分享到微信好友和朋友圈详细步骤是什么,我现在分享之后没结果。

============问题描述============ 请问android使用友盟分享,分享到微信好友和朋友圈详细步骤是什么,我现在分享之后没结果.弹出来图片大小超过32kb,然后分享中 就没反应了 ============解决方案1============ 引用 楼主 zpq19870824 的回复: 请问android使用友盟分享,分享到微信好友和朋友圈详细步骤是什么,我现在分享之后没结果.弹出来图片大小超过32kb,然后分享中 就没反应了 我也不知道,帮你顶一下吧...

TortoiseSVN使用详细步骤

1 安装及下载client 端 2 什么是SVN(Subversion)? 3 为甚么要用SVN? 4 怎么样在Windows下面建立SVN Repository? 5 建立一个Working目录 6 新增档案及目录到Repository中 7 更新档案及目录 8 更新至特定版本 9 复制档案及目录 10 制作Tag或是Release 11 快速参考 11.1 取得(Checkout)Repository 11.2 更新(Update)档案或目录 11.3 新增(Add)档案或目录 11.4 提