GBDT与LR融合提升广告点击率预估模型

1GBDT和LR融合

LR模型是线性的，处理能力有限，所以要想处理大规模问题，需要大量人力进行特征工程，组合相似的特征，例如user和Ad维度的特征进行组合。

GDBT天然适合做特征提取，因为GBDT由回归树组成所以，每棵回归树就是天然的有区分性的特征及组合特征，然后给LR模型训练，提高点击率预估模型（很多公司技术发展应用过，本人认为dnn才是趋势）。

例如，输入样本x，GBDT模型得到两颗树tree1和tree2，遍历两颗树，每个叶子节点都是LR模型的一个维度特征，在求和每个叶子*权重及时LR模型的分类结果。

2广告长尾性

1）gbdt和随机森林rf的对比：

rf主要选择对大多数样本有区分度的特征；gbdt的过程，前面树针对大多数样本有区分，后面树针对残差依然较大的样本，即针少数的对长尾样本。更适合ctr模型预估。

2）针对广告的长尾性，广告id这个特征就很重要，比如：某少量长尾用户就喜欢点某类广告主的广告。

方案：分别针对ID类和非ID类建树，ID类树：用于发现曝光充分的ID对应的有区分性的特征及组合特征；非ID类树：用于曝光较少的广告。

3gbdt得到的特征维度

维度会降低，总维度是所有叶子节点数之和。

4gdbt模型原理

1）BT回归树

年龄预测：简单起见训练集只有4个人，A,B,C,D，他们的年龄分别是14,16,24,26。其中A、B分别是高一和高三学生；C,D分别是应届毕业生和工作两年的员工。

1BT回归树：显然容易过拟合，特征太细了，只要叶子允许够多可以达到百分百的准确率，但性能并不好。

2）GDBT模型

（1）最小化均方误差特，确定特征：购物金额的分割点：

（2）计算残差=预测值-真实值，真实值是叶子节点均值，特征：百度知道提问：

（3）残差为0，停止迭代，输出预测结果，真实值=初始值+残差之和

A: 14岁高一学生，购物较少，经常问学长问题；预测年龄A = 15 – 1 = 14

B: 16岁高三学生；购物较少，经常被学弟问问题；预测年龄B = 15 + 1 = 16

C: 24岁应届毕业生；购物较多，经常问师兄问题；预测年龄C = 25 – 1 = 24

D: 26岁工作两年员工；购物较多，经常被师弟问问题；预测年龄D = 25 + 1 = 26

参考

http://www.jianshu.com/p/504acc6c410e

时间： 2024-10-10 13:39:10

GBDT与LR融合提升广告点击率预估模型的相关文章

常见计算广告点击率预估算法总结

欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:段石石导语: 本文讨论了CTR预估模型,包括工业界使用比较广的比较经典模型和学术界最新的结合DeepLearning的一些工作. 前言谈到CTR,都多多少少有些了解,尤其在互联网广告这块,简而言之,就是给某个网络服务使用者推送一个广告,该广告被点击的概率,这个问题难度简单到街边算命随口告诉你今天适不适合娶亲.适不适合搬迁一样,也可以复杂到拿到各种诸如龟壳.铜钱等等家伙事,在沐浴更衣.净手煴香后,最后一通预测,发现完全扯淡,被

CTR预估中GBDT与LR融合方案

http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm 1.背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入.CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间 [2],映射后的函数值就是CTR的预估值.LR,逻辑

程序化广告交易中的点击率预估

原文:http://www.cnblogs.com/Matrix_Yao/p/4773221.html 程序化广告交易中的点击率预估指标广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标: 1. 排序指标.排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户.这个是变现的基础,从技术上,我们用AUC来度量. 2. 数值指标.数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标.如果我们对CTR普遍低估

广告点击率预测 [离线部分]

原文:http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471/ 广告点击率预测屈伟 / Koala++ 先声明一下,本文所提到的所有的点击率预测的技术不是我在的团队使用的,因为我们团队使用的技术是保密的,所以我也不知道他们是怎么做的.事实上我不知道广告点击率怎么预测的,认识我的人都知道,我就是最喜欢舞那开始三板斧的人,然后我就想扔了板斧投降了.也希望各位能指正我所写的内容中的错误之处,给我一下学习第四斧的机会. 强

【点击模型学习笔记】广告点击率估算技术综述_华东师范大学学报2013

概要: 不是一篇高质量文章,不过是一篇还算不错的综述,而且时间够新(2013). 具体内容:按照文章原本内容顺序罗列 0. 介绍 * 赞助商广告:投放到搜索结果页面 * 情境广告:在网页某个位置上投放,一般由广告联盟介入 1. 广告点击率预测的应用背景 * 广告点击率一般比较低,能达到0.2%就已经是很好的投放了 * 大量的广告.查询都是很稀疏的 * 利用用户点击行为的,除了点击率预测,还有两个领域:搜索结果排序和推荐系统 * "Inferring Clickthrough Rates on A

广告点击率预测

论文研读1.0 基于神经网络与因子分解机的点击率预估应用研究（陈检）

基于神经网络与因子分解机的点击率预估应用研究(陈检) 摘要长久以来广告点击预估率问题属于用户行为预测研究问题,其主要解决是特征工程问题. 深度神经网络主要提取高阶特征,因子分解机提取二阶以下特征注改:因子分解机实际应用中受限于计算复杂度,一般只考虑到2阶交叉特征(FM预测时间复杂度O(kn),FFM预测时间复杂度O(kn^2),FM提取低阶组合特征,Deep提取低阶组合特征,同时学习低阶和高阶的组合特征. FM与Deep共享同样的输入. 通过对比试验发现:基于深度神经网络和因子分解机的组合模

广告点击率预测（CTR） —— 在线学习算法FTRL的应用

FTRL由google工程师提出,在13的paper中给出了伪代码和实现细节,paper地址:http://www.eecs.tufts.edu/~dsculley/papers/ad-click-prediction.pdf 本文旨在算法的应用,推导和优化过程详见paper,推荐一篇博文http://www.cnblogs.com/EE-NovRain/p/3810737.html,有兴趣的可以详读. per-coordinate FTRL_Proximal的伪代码如下: α根据数据和特征自适