点击率预测综述

  对于计算广告系统,一个可以携带广告请求的用户流量到达后台时,系统需要在较短时间(一般要求不超过 100ms)内返回一个或多个排序好的广告列表;在广告系统中,一般最后一步的排序 score=bid*pctralpha;其中 alpha 参数控制排序倾向,如果 alpha<1,则倾向于 pctr,否则倾向于 bid;这里的核心因子 pctr 就是通常所说的点击率(predicted click through rate)。

  对于推荐系统,也有类似的需求,当用户请求到达后台的时候,我们需要返回一个排序好的文章列表或者 feeds 列表。早期的推荐系统主要以协同过滤和基于内容的推荐为主,近年来推荐系统的主流形式也变成和广告类似的两步走模式:先召回一个候选队列,然后排序;在排序这一步有很多种不同的策略,比如 pair-wise 的一些分类算法之类,但更多还是类似 facebook、youtube 之类的计算一个分数,然后排序;这个分数里往往也少不了 item 的 pctr 这个关键因子。

  • problem formulation:回归问题 vs 分类问题 

  第一种是将其看做一个分类问题;因为我们原始的日志是曝光和点击;通过简单的归约以后,把点击看做正样本,曝光看做负样本的话,基于一段时间的数据样本,可以训练一个分类器。形式化来说,假设用户 u、物品 i,上下文 c,曝光和点击类别 e,每个样本可以看成一个<u,i,c|e>的元组;其中 e 的取值只有 0、1 两种,这时候对每一个用户、物品、上下文组合<u,i,c>,需要一个模型来对其分类,是点击还是不点击;

  另一种假设每个<u,i,c>可以预测一个 ctr(0-1 之间的值),这时候就变成了一个回归问题。在实际业务中,不同的问题定义方式不仅决定了可以使用模型的范围,甚至决定了本质效果的差异。某个领域机器学习方法的进步,往往不只是模型的进步,有时候是先有问题定义的进步,然后才有模型和算法的进步;而问题定义的进步来源于对业务场景的理解。

原文地址:https://www.cnblogs.com/wzdLY/p/10132980.html

时间: 2024-10-12 13:39:36

点击率预测综述的相关文章

广告点击率预测 [离线部分]

原文:http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471/ 广告点击率预测 屈伟 / Koala++ 先声明一下,本文所提到的所有的点击率预测的技术不是我在的团队使用的,因为我们团队使用的技术是保密的,所以我也不知道他们是怎么做的.事实上我不知道广告点击率怎么预测的,认识我的人都知道,我就是最喜欢舞那开始三板斧的人,然后我就想扔了板斧投降了.也希望各位能指正我所写的内容中的错误之处,给我一下学习第四斧的机会. 强

广告点击率预测

原文:http://quweiprotoss.blog.163.com/blog/static/4088288320144810567471/ 广告点击率预测 屈伟 / Koala++ 先声明一下,本文所提到的所有的点击率预测的技术不是我在的团队使用的,因为我们团队使用的技术是保密的,所以我也不知道他们是怎么做的.事实上我不知道广告点击率怎么预测的,认识我的人都知道,我就是最喜欢舞那开始三板斧的人,然后我就想扔了板斧投降了.也希望各位能指正我所写的内容中的错误之处,给我一下学习第四斧的机会. 强

竞价广告系统-点击率预测和逻辑回归

点击率预测和逻辑回归 点击率预测 从广告索引中我们得到很多的广告候选,这些广告从逻辑上都满足广告主的定向条件,即广告主定向条件的DNF范式,在竞价广告系统中,我们要选择一个最优的方案,最优的广告投送出来,一般最优的广告是通过eCpm进行排序,用广义第二高价进行排序,进行收费的模式.在CPC环境中eCpm=bid * ctr,那么对CTR的预测就是竞价广告系统中最重要的一个部分. 每个公司都对点击率预测有不同的做法,做法也非常多,这里只描述一下人人对这个问题的理解和看法. 广告点击预测概率模型:

广告点击率预测(CTR) —— 在线学习算法FTRL的应用

FTRL由google工程师提出,在13的paper中给出了伪代码和实现细节,paper地址:http://www.eecs.tufts.edu/~dsculley/papers/ad-click-prediction.pdf 本文旨在算法的应用,推导和优化过程详见paper,推荐一篇博文http://www.cnblogs.com/EE-NovRain/p/3810737.html,有兴趣的可以详读. per-coordinate FTRL_Proximal的伪代码如下: α根据数据和特征自适

【点击模型学习笔记】广告点击率估算技术综述_华东师范大学学报2013

概要: 不是一篇高质量文章,不过是一篇还算不错的综述,而且时间够新(2013). 具体内容:按照文章原本内容顺序罗列 0. 介绍 * 赞助商广告:投放到搜索结果页面 * 情境广告:在网页某个位置上投放,一般由广告联盟介入 1. 广告点击率预测的应用背景 * 广告点击率一般比较低,能达到0.2%就已经是很好的投放了 * 大量的广告.查询都是很稀疏的 * 利用用户点击行为的,除了点击率预测,还有两个领域:搜索结果排序和推荐系统 * "Inferring Clickthrough Rates on A

常见计算广告点击率预估算法总结

欢迎大家前往腾讯云技术社区,获取更多腾讯海量技术实践干货哦~ 作者:段石石 导语: 本文讨论了CTR预估模型,包括工业界使用比较广的比较经典模型和学术界最新的结合DeepLearning的一些工作. 前言 谈到CTR,都多多少少有些了解,尤其在互联网广告这块,简而言之,就是给某个网络服务使用者推送一个广告,该广告被点击的概率,这个问题难度简单到街边算命随口告诉你今天适不适合娶亲.适不适合搬迁一样,也可以复杂到拿到各种诸如龟壳.铜钱等等家伙事,在沐浴更衣.净手煴香后,最后一通预测,发现完全扯淡,被

互联网广告综述之点击率特征工程

互联网广告综述之点击率特征工程 声明: 1)该博文是整理自网上很大牛和专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用.所以每一部分具体的参考资料并没有详细对应,更有些部分本来就是直接从其他博客复制过来的.如果某部分不小心侵犯了大家的利益,还望海涵,并联系老衲删除或修改,直到相关人士满意为止. 3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢. 4)阅读本文需要机器学习.统计学习理论.优化算法等等基础(如果没有也没关

GBDT与LR融合提升广告点击率预估模型

1GBDT和LR融合 LR模型是线性的,处理能力有限,所以要想处理大规模问题,需要大量人力进行特征工程,组合相似的特征,例如user和Ad维度的特征进行组合. GDBT天然适合做特征提取,因为GBDT由回归树组成所以, 每棵回归树就是天然的有区分性的特征及组合特征,然后给LR模型训练,提高点击率预估模型(很多公司技术发展应用过,本人认为dnn才是趋势). 例如,输入样本x,GBDT模型得到两颗树tree1和tree2,遍历两颗树,每个叶子节点都是LR模型的一个维度特征,在求和每个叶子*权重及时L

点击率校准

通常预测的点击率都是不准的,需要校准.例如,boosted trees and SVM预测结果趋于保守,即预测的概率偏向于中值:而对于NaiveBayes预测的概率,小概率趋于更小,大概率趋于更大.常用的校准方法有Binning和Pair‐Adjacent Violators (PAV):下面分别说说这两种方法. Binning思想比较简单,也容易实现. 需要说明的是,通常校准算法不仅仅是将概率校准为另一概率,而是广义地将一分类器的输出score(例如SVM的输出)校准为一概率:这里的score