CTR预估算法

GBRT(Gradient Boost Regression Tree)渐进梯度回归树,XGBoost是GBRT的一个工程实现

LR(Logistics Regression )逻辑回归

Spark  Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。Spark允许程序开发者使用有向无环图(DAG)开发复杂的多步数据管道。而且还支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。

Scala 是一门编程语言,可在Spark上编程。有新颖的面向对象方式、类型推断、灵活的语法、新的集合类(包括自然的函数式编程风格,比如映射/过滤器惯用语),以及基于actor的并发模型。

点击率预测主要使用LR(Logistics Regression 逻辑回归)的线性策略,该方法的主要问题之一是需要人工大量的时间去挑选和组合特征,而使用树模型(tree model)则可以大大减轻这个工作量。

XGBoost是GBRT的一个工程实现,由多棵决策树构成,每一棵树都是从之前的残差中学习的,有很好的性能并且泛化能力也很强。

所以可以使用XGBoost来特征选择,用LR来输出CTR分数。

参考:

(1)Spark MLlib实现的广告点击预测–Gradient-Boosted Trees http://blog.csdn.net/bitcarmanlee/article/details/52138713

时间: 2024-10-08 10:08:57

CTR预估算法的相关文章

CTR预估中GBDT与LR融合方案

http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm 1.背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入.CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间 [2],映射后的函数值就是CTR的预估值.LR,逻辑

常见计算广告点击率预估算法总结

欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:段石石 导语: 本文讨论了CTR预估模型,包括工业界使用比较广的比较经典模型和学术界最新的结合DeepLearning的一些工作. 前言 谈到CTR,都多多少少有些了解,尤其在互联网广告这块,简而言之,就是给某个网络服务使用者推送一个广告,该广告被点击的概率,这个问题难度简单到街边算命随口告诉你今天适不适合娶亲.适不适合搬迁一样,也可以复杂到拿到各种诸如龟壳.铜钱等等家伙事,在沐浴更衣.净手煴香后,最后一通预测,发现完全扯淡,被

计算广告之CTR预估-FM模型解析

原文:Factorization Machines 地址:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.393.8529&rep=rep1&type=pdf 一.问题由来 在计算广告和推荐系统中,CTR预估(click-through rate)是非常重要的一个环节,判断一个商品的是否进行推荐需要根据CTR预估的点击率来进行.传统的逻辑回归模型是一种广义线性模型,非常容易实现大规模实时并行处理,因此在工业界获得了广泛应用,

CTR预估---传统模型

传统CTR预估模型包括:LR.FM.GBDT等,其优点是:可解释性强.训练和部署方便.便于在线学习. (一)CTR预估 1.在cost-per-click:CPC广告中广告主按点击付费.为了最大化平台收入和用户体验,广告平台必须预测广告的CTR,称作predict CTR:pCTR.对每个用户的每次搜索query,有多个满足条件的广告同时参与竞争.只有pCTR x bid price最大的广告才能竞争获胜,从而最大化eCPM:eCPM=pCTR x bid 基于最大似然准则可以通过广告的历史表现

闲聊DNN CTR预估模型

原文:http://www.52cs.org/?p=1046 闲聊DNN CTR预估模型 Written by b manongb 作者:Kintocai, 北京大学硕士, 现就职于腾讯. 伦敦大学张伟楠博士在携程深度学习Meetup[1]上分享了Talk<Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction in Display Ads>.他在2016 ECIR发表

CTR预估评价指标介绍

1 离线指标 1.1 LogLoss 1.1.1 KL散度 logloss使用KL散度来计算.设样本的真实分布为P,预测分布为Q,则KL散度定义如下: 这里可以通俗地把KL散度理解为相同事件空间里两个概率分布的相异情况.KL散度越小,预测分布越接近真实分布. KL散度的物理意义是:使用分布Q来对真实分布为P的事件进行编码,导致平均编码长度增加了多少.具体解释可见百度和知乎. 1.1.2 CTR中KL散度的计算 CTR预估中,测试集中每个样本是一条广告,它有一个真实的点击率tctr和一个预测的点击

为什么CTR预估使用AUC来评估模型?

ctr预估简单的解释就是预测用户的点击item的概率.为什么一个回归的问题需要使用分类的方法来评估,这真是一个好问题,尝试从下面几个关键问题去回答. 1.ctr预估是特殊的回归问题 ctr预估的目标函数为 f(x)=P(+1|x) 特殊之处在于目标函数的值域为[0,1],而且由于是条件概率,具有如下特性 如果将ctr预估按照一般的回归问题处理(如使用Linear Regression),面临的问题是一般的linear regression的值域范围是实数域,对于整个实数域的敏感程度是相同的,所以

【转】- 从FM推演各深度CTR预估模型(附代码)

从FM推演各深度CTR预估模型(附代码) 2018年07月13日 15:04:34 阅读数:584 作者: 龙心尘 && 寒小阳 时间:2018年7月 出处: 龙心尘 寒小阳 原文地址:https://www.cnblogs.com/suanec/p/9328336.html

深度学习在CTR预估中的应用

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由鹅厂优文发表于云+社区专栏 一.前言 二.深度学习模型 1. Factorization-machine(FM) FM = LR+ embedding 2. Deep Neural Network(DNN) 3. Factorisation-machine supported Neural Networks (FNN) 4. Product-based Neural Network(PNN) 5. Wide & Deep Lear