十大经典预测算法六---集成学习(模型融合算法)

模型融合算法概念

  它不是具体的指某一个算法,而是一种把多个弱模型融合合并在一起变成一个强模型的思想

用模型融合算法的原因

  1、单个模型容易过拟合,多个模型融合可以提高范化能力

  2、单个模型预测能力不高,多个模型往往能提高预测能力

  3、对于数据集过大或过小,可以分别进行划分和有放回的操作,产生不同的数据子集,然后通过数据子集训练不同的分类模型,最终合并成一个大的分类器

  4、对于多个异构的特征集的时候,很难进行融合,可以考虑每个数据集构建一个分类模型,然后将多个模型融合

  5、模型融合算法成功的关键在于能保证弱分类器(弱模型)的多样性,融合不稳定的学习算法能得到更明显的性能提升

融合模型示例

  一个天气预报的示例,可以看到多个模型融合后可以显著提升预测效果:5个子模型平均都会有两个到三个的错误,但是使用少数服从多数的投票法融合之后,最终的预测结果100%正确

模型融合基础算法:

  投票法(Voting):如果是分类模型,每个模型都会给出一个类别预测结果,通过投票的方式,按照少数服从多数的原则融合得到一个新的预测结果。

  均值法(Averaging):如果是回归模型,每个模型给出的预测结果都是数值型的,这时候我们可以通过求所有子模型的预测结果的均值作为最终的融合结果

Bagging融合框架:

   Bagging融合的原理是采用有放回的抽样,即每次从训练样本中随机取出一个样本,而且每次抽取的样本数量与总体的样本数量一致,取K次样本,对K个抽样得到的训练样本进行训练得到K个子模型,然后对K个子模型结果进行融合,分类采用投票法,回归采用均值法。典型算法是随机森林。下图即为Bagging框架示意图。

   

因Bagging融合算法各子模型间没有相互联系,所以它是一种并行的融合方法,可同时并行处理K个子模型,这样大大提升算法执行效率。

Boosting融合框架

  Boosting融合在每次训练模型时更关注上一次的模型错判的样例,并且会给这些错判的样例更大的权重,这样做的目的是就是为了加强对错判样本的学习,让模型通过不断的迭代,效果越来越好。最终将多次迭代的训练得到的弱模型进行加权求和,得到最终的强模型。因为Boosting框架各模型间是有依赖关系存在的,所以它是一种串行的融合方法。

如上图所示,使用Boosting融合方法迭代了3轮得到3个弱分类器,每一轮的训练样本权重是不一样的,它会根据上一轮的预测结果对错判的样本进行加权,目的是为了在下一轮的训练学习中更加关注这些错判的样本,最后把每一轮训练得到的模型加权融合起来。典型算法是Adaboost,GBDT(梯度提升决策权)

Bagging融合更加关注的是得到一个更稳定的模型,而Boosting融合关注的是得到一个预测能力更强的模型。

   

  

原文地址:https://www.cnblogs.com/baoxuhong/p/10226656.html

时间: 2024-08-03 05:21:22

十大经典预测算法六---集成学习(模型融合算法)的相关文章

十大经典预测算法(九)---GBDT

GBDT又叫梯度提升决策树,它也属于Boosting框架.GBDT核心原理如下: 如图所示,用GBDT预测年龄,第一轮,预测到年龄为20,它和真实值之间的残差为10,第二轮,GBDT开始预测上一轮的残差10,预测结果为6,这一轮 的残差为4,第三轮,以年龄4为预测目标,预测来的值为3,和真实值之间相差1,最后以残差1为预测目标,预测结果为1,此时残差为0,预测结束,最后把之前模型预测的结果全部相加,就得到预测的真实值为30岁 所以,GBDT的核心原理是先用初始值预测一颗决策树,得到本轮的残差,即

十大经典预测算法----线性回归

回归问题就是拟合输入变量x与数值型的目标变量y之间的关系,而线性回归就是假定了x和y之间的线性关系,公式如下: 如下图所示,我们可以通过绘制绘制(x,y)的散点图的方式来查看x和y之间是否有线性关系,线性回归模型的目标是寻找一条穿过这些散点的直线,让所有的点离直线的距离最短.这条完美直线所对应的参数就是我们要找的线性回归模型参数w1,w2,w3--b 最小二乘法是一种求解回归模型参数w1,w2,w3--b的方法,线性回归模型中,能让预测值和真实值误差平方和最小的这条直线就是完美直线. y^i表示

数据挖掘十大经典算法

一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足: 2) 在树构造过程中进行剪枝: 3) 能够完成对连续属性的离散化处理: 4) 能够对不完整数据进行处理. C4.5算法有如下优点:产生的分类规则易于理解,准确率较高.其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导

数据挖掘领域十大经典算法初探

译者:July   二零一一年一月十五日 ----------------------------------------- 参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.==============博主说明:1.原文献非最新文章,只是本人向来对算法比较敏感.感兴趣,便把原文细看了下,翻译过程中

机器学习与数据挖掘中的十大经典算法

背景: top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法.吴教授觉得非常好,开始着手解决这个事情.找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干.原因估计有一下几种:1.确实很忙2.得罪人3.一系列工作很繁琐等等.最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来.先是请数据挖掘领域获过kdd和icdm大奖的十四个牛人提名候选,其中一人因为确实很忙,正从ibm转行到微软,吴教授

十大经典算法

以下就是从参加评选的18种候选算法中,最终决选出来的十大经典算法: 一.C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法,ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它.决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件. C4.5相比于ID3改进的地方有:1.用信息增益率来选择属性.ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(

图解十大经典机器学习算法

图解十大经典机器学习算法 弱人工智能近几年取得了重大突破,悄然间,已经成为每个人生活中必不可少的一部分.以我们的智能手机为例,看看到底温藏着多少人工智能的神奇魔术. 下图是一部典型的智能手机上安装的一些常见应用程序,可能很多人都猜不到,人工智能技术已经是手机上很多应用程序的核心驱动力. 图1 智能手机上的相关应用 传统的机器学习算法包括决策树.聚类.贝叶斯分类.支持向量机.EM.Adaboost等等.这篇文章将对常用算法做常识性的介绍,没有代码,也没有复杂的理论推导,就是图解一下,知道这些算法是

Python十大经典排序算法

现在很多的事情都可以用算法来解决,在编程上,算法有着很重要的地位,将算法用函数封装起来,使程序能更好的调用,不需要反复编写. Python十大经典算法: 一.插入排序 1.算法思想 从第二个元素开始和前面的元素进行比较,如果前面的元素比当前元素大,则将前面元素 后移,当前元素依次往前,直到找到比它小或等于它的元素插入在其后面, 然后选择第三个元素,重复上述操作,进行插入,依次选择到最后一个元素,插入后即完成所有排序. 2.代码实现 1 def insertion_sort(arr): 2 #插入

秒杀多线程第十六篇 多线程十大经典案例之一 双线程读写队列数据

版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 本文配套程序下载地址为:http://download.csdn.net/detail/morewindows/5136035 转载请标明出处,原文地址:http://blog.csdn.net/morewindows/article/details/8646902 欢迎关注微博:http://weibo.com/MoreWindows 在<秒杀多线程系列>的前十五篇中介绍多线程的相关概念,多线程同步互斥问题<秒杀多