竞价广告系统-动态特征

动态特征

特征对点击率预测有多种选择的方法,我们现在有三个轴,有ad,user,context。User上有很多标签,cookie,age,gender是从定向信息中得到的,url上有一些域名和分析得到的topic,ad上有层次的category,advertiser,campaign,solution,creative,url。很显然,如果仅仅作为一个learning的问题,任何两个轴或三个轴组合出来的特征都是可以用作于logistic regression中的特征去学习的,还可以分析出每个特征的强度是多少,但这也会产生前面所提到的大量特征的问题,组合出上亿个特征并不奇怪。

我下面介绍的是另外一方面思路,一种直觉的特征的选择方案,对于这种CTR预测问题,或者说对于一些互联网问题,动态特征还是蛮有效的。动态特征是相对静态特征而言的,静态特征举一个例子,上文提到过静态特征可以通过组合得到,比如年龄等于15岁并且广告是电商广告,如果user和ad满足这两个条件,则特征值为1,否则为0。而动态优化是统计出这个组合在历史上它的表现是什么情况,即年龄等于15岁且为电商广告在历史上点击率如何,历史上的点击率显示是一个特别强的指标,或者说它比1或是0代表的信息要多。动态特征即是在标签组合维度上聚合点击反馈统计作为CTR预测的特征。也可以换一个角度去理解,我们可以认为这种聚合维度上的CTR是一个弱分类器,比如上例中只知道年龄和广告类型对点击率进行预测。我们对成千上万的组合特征就可以训练得到成千上万的弱分类器,这种弱分类器再作为最后learning模型的输入特征。

动态特征的优势有:1. 工程架构扩展性比较强,因为生成动态特征,只需要在历史数据上作统一的挖掘流量,只需要进行配置就可以实现对任意特征的挖掘,它与在线学习相比,上文讲到,特征上的任何一个方案,都对应模型上的一个方案,如果在模型上快速地变weight与在特征集合上快速变特征,变特征会简单的多,因为变模型在广告投放的过程中还涉及多台机器通信的问题,变特征没有这个问题,即使你需要计算的很快速,也可以用流式计算平台实现。2. 对于新的(a, u, c)组合有较强的back-off能力,比如有一种广告素材是没有出现过的,如果想在模型中把这个特征加进去,把权重更新出来,过程是比较复杂的。如果是仅仅在特征端对它进行描述,这个素材对不同的人群的CTR都作为动态特征放在系统里,只要流式计算做的足够快,只要广告上线,就可以迅速地就可以在模型中做出正确的决策。动态特征的缺点是,因为特征都是动态的,是需要一个很大的Cache去存储,存储的量是巨大的,因为所有的组合都可以生成动态特征,另外,更新的速度要求也比较高。

我举几个组合的例子,比如cookie(u)和creative(a)可以组合,但这种组没有太大意见,因为cookie和creative无论你做动态特征还是静态特征,能得到的统计信息都太少了,再比如gender(u)和topic(c),这种组合能得到的统计信息就比较多,它得到的结论也比较稳定,但就不足够精细了。Location(u)和advertise(a)同样也是统计量比较大,但是不够精细。还有category(a)和category(u),cookie(u),creative(a),gender(u)这么特征或是做静态的,或是做动态的,我们用模型学习出最有价值的特征,用于最后的决策。

时间: 2024-10-09 17:18:47

竞价广告系统-动态特征的相关文章

竞价广告系统-点击率预测和逻辑回归

点击率预测和逻辑回归 点击率预测 从广告索引中我们得到很多的广告候选,这些广告从逻辑上都满足广告主的定向条件,即广告主定向条件的DNF范式,在竞价广告系统中,我们要选择一个最优的方案,最优的广告投送出来,一般最优的广告是通过eCpm进行排序,用广义第二高价进行排序,进行收费的模式.在CPC环境中eCpm=bid * ctr,那么对CTR的预测就是竞价广告系统中最重要的一个部分. 每个公司都对点击率预测有不同的做法,做法也非常多,这里只描述一下人人对这个问题的理解和看法. 广告点击预测概率模型:

竞价广告系统-流量预测

流量预测 在前面合约式广告中提到过合约式广告中有三个基本技术,1. 受众定向,2. 点击预测,3. 流量预测.在这三个技术基础上才可以做Online Allocation,本节主要介绍流量预测. 在定向条件分的比较粗的情况下,流量预测是比较简单的,比如只对人群分了几十个类,那么只需要进行简单的统计就可以进行流量预测了.但在实际的Network中,一个广告投放的定向条件比较多(即前一节中的DNF),并且条件有或的关系,也可能有与的关系. 流量预测的方法有很多,也不乏一些fancy的做法,这里只介绍

竞价广告系统-广告网络

广告网络 广告网络 (Ad Network) 在竞价机制下,主流的广告市场形态是广告网络,解释一下,广告网络在竞价机制下这个说法并不准确,因为广告网络是一个很庞杂的概念,有按CPD(按天付费)广告,还有合约式广告等等,我这里我们暂时只关注竞价机制下的广告网络. Wiki中对广告网络的定义,Connects advertisers to web sites that want to host advertisement,这是一个非常泛的定义,广告网络的主要特征有: 1. 竞价系统(Auction

竞价广告系统-ZooKeeper介绍

ZooKeeper介绍 为了讲述的完整性,介绍一下ZooKeeper.ZooKeeper在Index和Ad Server里使用比较多,虽然它可能没有google的Chubby好,但它是开源的工具.举一个使用场景,比如我们有很多台Index,或者有很多台Ad Server,其中有一些机器崩溃了,或是有一些机器新添加进了集群,如何用一个分布式的管理系统通知其它相关模块,哪些机器是可以用的.ZooKeeper就是解这种问题的,ZooKeeper是在基于消息传递通信模型的分布式环境下解决一致性问题的基础

竞价广告系统-广告检索

广告检索 在前面谈到合约式广告时没有讨论广告检索的问题,虽然合约式广告也有检索的问题,但合约式广告一般数量非常小,只有千的级别,不需要特别的检索技术.但在广告网络中,比如google的广告数在百万级别.广告的检索问题有其独特的地方,下面我们讨论两点. 1.     布尔表达式检索,2. 长Query,它在上下文广告时会用到. 广告投放条件过滤可以视为布尔表达式检索问题.它不同于web搜索中关键词的搜索.比如广告主投放条件可能是年龄属于第三年龄段,地区是纽约,或是地区是加州,性别是男性的用户.可以

竞价广告系统-逻辑回归优化方法-L-BFGS

逻辑回归优化方法-L-BFGS 逻辑回归的优化方法是一个经典的问题,如果我们把它视为一个最大熵模型,那么我们知道最早的优化方法是IIS,这个方法就不细讲了,因为它速度很慢.后来发现在最优化领域中非常常用的l-BFGS方法对于Logistic Regression的收敛速度优化是不错的. l-BFGS方法是Quasi-Newton方法中的一种,我想从工程角度谈一下我的看法,上次我们谈到在分布式环境下进行模型的优化,无非有两种思路,一,如果数据是mixture of exponent family的

合约广告系统-在线分配问题

在线分配(Online Allocation)问题 在线分配问题 前面提到过广告是三方博弈,用户,广告主,媒体之间的博弈,而推荐系统是用户与媒体的博弈.它们之间的区别其一是广告主通媒体reach用户是有量的需求的,推荐系统是自己把内容推给用户,不见得有明显的量的需求.广告的量的需求体现在两个方面,一种是我前面提到的GD广告系统,有量的下限的需求,或者说有固定流量的需求,二是Non- Guaranteed delivery,即非合约方式,它有一种上限的限制,它受到广告预算的受限.所以在线分配问题的

合约广告系统-合约广告系统

合约广告系统 直接媒体购买 合约广告英文是Agreement-based Advertising,它是一种基于合约(Agreement)的商业模式,大家会看到它与后面的Network和Exchange有相当大的不同,我们当前最主要的是把合约广告要解决的问题理解清楚,具体的技术可以再理解. 传统的广告媒体购买方式是称之为直接媒体购买方式(Direct Media Buy),它是一种简单的购买方式,比如一个杂志可能有几个广告位,比如封二页,封底页,广告主可以直接购买这些广告位,这种方式没有任何的技术

广告系统的smart pricing是什么

smart pricing这个词来源于google的Adwords系统,指的是系统能够根据流量质量对流量方的收入进行打折,为的是让广告主获得更高的ROI(投资回报率).将smart pricing的使用场景抽象化,任何一个广告系统,只要它有着各种各样不同的流量,而这些流量的效果有好有坏,那么smart pricing都有它的用武之地. 如果系统发现一个流量(网站.APP.网站或APP的某个广告位)的效果好,那么,我们不对它的收入进行打折. 如果系统发现一个流量的效果差(与大盘平均效果相比),那么