GBDT的基本原理

这里以二元分类为例子，给出最基本原理的解释

?
?

GBDT 是多棵树的输出预测值的累加

GBDT的树都是
回归树
而不是分类树

?
?

分类树

?
?

分裂的时候选取使得误差下降最多的分裂

计算的技巧

最终分裂收益按照下面的方式计算，注意圆圈内的部分是固定值

GBDT 二分类

GBDT在实现中可以完全复用上面的计算方法框架，只是我们的优化的目标函数不同。

这里使用的是
指数误差函数，不管是预测正确还是错误
误差值都存在，但是正确的预测
会使得误差值小于错误的预测
参考

AdaBoost and the Super Bowl of Classi?ers

A Tutorial Introduction to Adaptive Boosting

关于常用误差函数
参考
http://www.cnblogs.com/rocketfan/p/4083821.html

?
?

参考 Greedy Functon Approximation:A Gradient Boosting Machine

4.4节关于二分类情况误差函数的设计

这里其实和上面给出的一样，只是增加了 log(1 +, 另外多了一个2,2yF)

?
?

这个F值其实就是逻辑回归的思路，类似?语音语言处理一书27页解释，线性加权的值（output)用来预测?p(true)和p(false)的比例的log值（回归值是实数范围取值不适合预测0-1，做了一个转换)，越是接近true，那么F(x)越接近+无穷(对应最大可能性判断true)，?p(false)越大?那么越接近-无穷(对应最大可能性判断false)

?
?

F(X)?对应?feature X?当前的回归预测值
也就是多棵树经过决策到达叶子节点的输出值output(x)的累加值。N个样本则F(x)N个维度，当开始没有分裂的时候所有样本在一个节点则所有F(x)对应一个相同的值，分裂一次后两个叶子节点则F(X)对应可能到不同的叶子节点从而可能有两个不同的值。

对误差函数计算关于F的梯度，误差函数是