机器学习——GBDT算法与stacking算法

GBDT(梯度提升迭代决策树）

总结

　　　优先解决回归问题，将第一个数据的残差传入到第二个数据中去

　　　构建下一个数据集的数据是上一个数据集的残差

详述

　　GBDT也是Boosting算法的一种，但是和AdaBoost算法不同;区别如下:

　　AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重值，然后一轮一轮
的迭代;

　　GBDT也是迭代，但是GBDT要求弱学习器必须是回归CART模型，而且
GBDT在模型训练的时候，是要求模型预测的样本损失尽可能的小。优先做回归问题。

要求：把boosting算法的第一棵树，第二棵树...看成一种迭代，随着迭代加深，损失函数在逐渐减小，哪个方向上损失函数减小最快，负梯度方向。因此，构建下一个学习器时，传入的值就是负梯度值，仅此而已。也是残差

　　 GBDT通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度。方差越高，模型越复杂，越容易过拟合；偏差越高，模型越简单，越容易欠拟合。
　　备注:所有GBDT算法中，底层都是回归树。

　　原理如下图

所有树的结果累加起来就是最终结果。

GBDT与随机森轮的区别：　　

A.随机森林使用抽取不同的样本构建不同的子树，也就是说第m棵树的构建和前m-1棵树的结果是没有关系的。

B.迭代决策树在构建子树的时候，使用之前子树构建结果后形成的残差作为输入数据构建下一个子树；然后最终预测的时候按照子树构建的顺序进行预测，并将预测结果相加梯度提升迭代决策树GBDT。

原理详述：

　　

F(X)是所有树加一起的回归值，我们要求的是下一棵树F*(X）,argmin意思是F*(X)是多少的时候能达到损失函数最小，后面的F(X)是前M个回归器y的回归值之和。

我们要找的就是fm(Xi）是多少的时候，损失函数最小

以某一个叶子节点举例：

来个完整的例题！

Stacking　

　　Stacking是指训练一个模型用于组合(combine)其它模型(基模型/基学习器)的技术。即首先训练出多个不同的模型，然后再以之前训练的各个模型的输出作为输入来新训练一个新的模型，从而得到一个最终的模型。一般情况下使用单层的Logistic回归作为组合模型。

原文地址：https://www.cnblogs.com/qianchaomoon/p/12128778.html

时间： 2024-10-07 22:39:50

机器学习——GBDT算法与stacking算法的相关文章

机器学习平台mahout，推荐系统算法与架构剖析视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

（楚才国科）最新机器学习必备十大入门算法！

简介机器学习算法是能够从数据中学习和从经验中改进而不需要人为干预的算法.学习任务包括学习将输入映射到输出的函数,学习未标记数据中的隐藏结构或"基于实例的学习",其中通过将新实例与存储在存储器中的训练数据的实例进行比较,为新实例生成类标签."基于实例的学习"不会从具体实例中创建抽象. 机器学习算法的类型机器学习算法有三种: 监督学习:监督学习可以解释如下: 使用标示的训练数据从输入变量(x)到输出变量(y)学习映射函数. Y = f(x) 监督学习问题有两种: a

【机器学习】Bagging与Boosting算法原理小结

集成学习(Ensemble Larning)本身不是一个单独的机器学习算法,是通过构建并结合多个机器学习器来完成学习任务的思想.通常的集成学习的方法指的是同质个体学习器.同质个体学习器使用最多的模型是CART决策树和神经网络.按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是Boosting系列算法:第二个是个体学习器之间不存在强依赖关系,一系列个体学习器可以并行生成,代表算法是Bagging和随机森林(Rando

机器学习优化算法之爬山算法小结

简言机器学习的项目,不可避免的需要补充一些优化算法,对于优化算法,爬山算法还是比较重要的.鉴于此,花了些时间仔细阅读了些爬山算法的paper.基于这些,做一些总结. 目录 1. 爬山算法简单描述 2. 爬山算法的主要算法 2.1 首选爬山算法 2.2 最陡爬山算法 2.3 随机重新开始爬山算法 2.4 模拟退火算法(也是爬山算法) 3. 实例求解正文爬山算法,是一种局部贪心的最优算法. 该算法的主要思想是:每次拿相邻点与当前点进行比对,取两者中较优者,作为爬坡的下一步. 举一个例子,求解

《机器学习实战》Logistic回归算法（1）

===================================================================== <机器学习实战>系列博客是博主阅读<机器学习实战>这本书的笔记也包含一些其他python实现的机器学习算法算法实现均采用python github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Python ==================================

机器学习：Python实现聚类算法(三)之总结

考虑到学习知识的顺序及效率问题,所以后续的几种聚类方法不再详细讲解原理,也不再写python实现的源代码,只介绍下算法的基本思路,使大家对每种算法有个直观的印象,从而可以更好的理解函数中参数的意义及作用,而重点是放在如何使用及使用的场景. (题外话: 今天看到一篇博文:刚接触机器学习这一个月我都做了什么? 里面对机器学习阶段的划分很不错,就目前而言我们只要做到前两阶段即可) 因为前两篇博客已经介绍了两种算法,所以这里的算法编号从3开始. 3.Mean-shift 1)概述 Mean-shift

机器学习中常见的最优化算法

我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题"在一定成本下,如何使利润最大化"等.最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称.随着学习的深入,博主越来越发现最优化方法的重要性,学习和工作中遇到的大多问题都可以建模成一种最优化模型进行求解,比如我们现在学习的机器学习算法,大部分的机器学习算法的本质都是建立优化模型,通过最优化方法对目标函数(或损失函数)进行优

机器学习实战(一)k-近邻算法

转载请注明源出处:http://www.cnblogs.com/lighten/p/7593656.html 1.原理本章介绍机器学习实战的第一个算法--k近邻算法(k Nearest Neighbor),也称为kNN.说到机器学习,一般都认为是很复杂,很高深的内容,但实际上其学习门栏并不算高,具备基本的高等数学知识(包括线性代数,概率论)就可以了,甚至一些算法高中生就能够理解了.kNN算法就是一个原理很好理解的算法,不需要多好的数学功底,这是一个分类算法(另一个大类是回归),属于监督学习的范

【机器学习基础】随机森林算法

引入我们回顾一下之前学习的两个算法,Bagging算法中,通过bootstrapping得到不一样的数据,通过这些数据送到一个基本算法之后,得到不同的g,最后对这些g取平均得到G:决策树算法中,通过递归方式建立子树,最终得到一棵完整的树. 这两种算法都有其鲜明的特点,决策树对于不同的数据相对会敏感一些,即其算法的variance很大,而Bagging的特点是通过投票和平均的方式来降低variance的效果.如果将这两种方法结合起来,就是该文要介绍的随机森林,random forest. 1.

猜你喜欢

Oracle 数据库表空间碎片查询和整理

dba_free_space 显示的是有free 空间的tablespace ,如果一个tablespace 的free 空间不连续,那每段free空间都会在dba_free_space中存在一条记录 ...

nagios监控内出错NRPE: Unable to read output 解决！

nagios监控内出错NRPE: Unable to read output 解决! 由于编写check_mem监控脚本,在监控机报警:NRPE: Unable to read output,其他监 ...

zookeeper源码分析三LEADER与FOLLOWER同步数据流程

根据二)中的分析,如果一台zookeeper服务器成为集群中的leader,那么一定是当前所有服务器中保存数据最多的服务器,所以在这台服务器成为leader之后,首先要做的事情就是与集群中的其它服务器 ...

黑马程序员金山卫士实战短信备份2集

黑马程序员大师班安卓项目实战-分分钟搞定金山卫士实战短信备份2集有很多用户们在使用智能手机的过程中有及时清理手机,删除电话记录以及短信的习惯,以此来保证手机的纯净,但是有时我们会有一些重要的信 ...

HDU 2544 最短路【Bellman_Ford 】

题意:给出n个节点,m条边,问从起点到终点的最短距离用bellman_ford,注意是无向图初学bellman_ford= =一点点理解因为dijkstra是每次用集合里面的点去更新它们所连接的 ...

Tomcat6.0+Jdk1.5+Axis1.3搭建java webservice环境，并使用c#调用该服务。

java jdk:jdk1.5.0_17 下载网址:http://pan.baidu.com/s/1gdmAkgV tomcat 6.0 下载地址:http://tomcat.apache.org/d ...

spring提供的线程池

SPRING中的线程池ThreadPoolTaskExecutor 分类: JAVA Spring2013-07-12 10:36 14896人阅读评论(9) 收藏举报 Spring线程池多线程 ...

mbr损坏以及grub.conf的配置文件丢失或出错的方法

在使用linux过程中我们可能因失误造成mbr的损坏,在我初学的时候,遇到这种问题只有重装系统,现在想想真够笨的..下面具体演示mbr损坏和grub.conf配置文件损坏或丢失的具体做法. 系统RHE ...

圆柱坐标系

STC89C52RC内部EEPROM编程

这个实验的目的是通过写入一个字节到单片机内部EEPROM,然后再将该字节读取出来,赋值给8位LED端口,点亮部分LED灯. STC89C52单片机内部EEPROM 的读写过程 ISP/IAP1 写入 ...

C++ 11开发环境搭建（Windows Platform）

C++ 11开发环境搭建(Windows Platform) IDE:Code::Blocks 12.11版本 Compiler:TDM-GCC http://tdm-gcc.tdra ...

Git服务器的搭建和使用

1. 安装Git yum -y install git 2. 创建git用户 adduser git 3. 创建证书登陆收集所有客户端需要登录的用户的公钥,就是他们自己的id_rsa.pub文件 ...

es6分享——变量的解构赋值

变量的解构赋值:ES6 允许按照一定模式,从数组和对象中提取值,对变量进行赋值,这被称为解构(Destructuring). 以前的写法: var a = 1; var b = 2; es6允许的写法 ...

Hibernate: 关联关系一对多映射

新建Student 类, Class 类, 设置Id, name; get, set方法在Student 类下增添 private Class c; Student.hbm.xml中添加 < ...

转: adroid音视延迟 10ms的原因与解答

https://github.com/hehonghui/android-tech-frontier/blob/master/issue-9/Android%2010ms%E9%97%AE%E9%A2 ...

[ActionScript 3.0] as3启动QQ

import flash.html.HTMLLoader; import flash.net.URLLoader; import flash.net.URLRequest; import flash. ...

【原创】从罗胖子关于开会的议题说开去

从罗胖子关于开会的议题说开去最近忽然喜欢上了罗胖子,昨天看了他的<罗辑思维>,是关于开会得方面的知识,感觉很有收获,同时也对他推荐的<罗伯特议事规则>挺感兴趣,目前先加在我的 ...

Codevs 1695 Windows2013

时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 Description 话说adamyi编的Windows 2013超时了(- -!),所以他不得不在自己家 ...

[转]SpringMVC整合Hessian访问远程服务

1.1 Hessian简介 Hessian是一个轻量级的Web服务实现工具,它采用的是二进制协议,因此很适合发送二进制数据.它的一个基本原理就是把远程服务对象以二进制的方式进行发送 ...

PreferencesUtils【SharedPreferences操作工具类】

版权声明:本文为博主原创文章,未经博主允许不得转载. 前言可以替代ACache用来保存用户名.密码. 相较于Acache,不存在使用猎豹清理大师进行垃圾清理的时候把缓存的数据清理掉的问题. 效果图 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.027 s.