【点击模型学习笔记】A survey on click modeling in web search_Lianghao Li_ppt

是一篇综述性质的ppt。

主要内容:

对搜索中的广告点击预测,总结学术界的研究成果。

搜索广告主要展示位为:1. 搜索结果页面最上侧;2. 搜索结果右侧。

研究意义:广告点击次数直接影响收入

问题抽象:对于某个query q,和某个广告ad,预测用户对它们的点击率。

具体内容:

1. 最简单的点击模型:通过点击次数来预测,计算公式为

P = #count of clicks / #count of impressions(展现)

缺点:点击受到用户浏览行为的影响;对于长尾query和ad,存在冷启动问题。

2. 点击模型:a unified framework——实际上是把各个因素罗列出来

u -- user

q -- query

a -- ad

r -- position of ad

c -- click, 1 if a is clicked by u

L -- the impression list

S -- the click sequence

点击模型的任务就是通过用户的点击日志来预测广告的未来点击,形式化的说,就是在未来的展现中,计算 P(c=1| q,a,u,r,L,S)的值

3. 点击模型的不同层次的假设

(1)unbiased hypothesis: P(c | q,a,u,r,L,S) = P(c|q,a)

(2)position bias hypothesis: P(c | q,a,u,r,L,S) = P(c|q,a,r)

(3)depend on click pattern: P(c | q,a,u,r,L,S) = P(c|q,a,r,S)

(4)depend on ad externality: P(c | q,a,u,r,L,S) = P(c|q,a,r,L)

(5)depend on user intent: P(c | q,a,u,r,L,S) = P(c|q,a,u,r)

展开来说:

3 - 1:unbiased hypothesis

点击只和query以及广告自身有关,不考虑任何因素

3 - 2:position bias hypothesis

examination hypothesis:将用户的examine的过程考虑进来,将“用户点击”这个事件分解为两个事件,即“用户examine”和“用户点击”。在此基础上,概率分解:

P(c|q,a,r) = P(e=1|r) * P(c=1|q,a,e=1)

其中,P(e=1|r) 表示在位置r,用户查看(examine)的概率。可以通过跟踪人眼盯在屏幕上的位置(热度)来获得;也可以通过将相同的ad放在不同的位置,来计算点击率获得,不过这种方法貌似代价比较大。

3 - 3:depend on click pattern

看这个ppt的感觉就是,模型越用越复杂,怀疑在实际中真的有用么?

cascade hypothesis(wsdm08):是examination hypothesis的进一步深化,即在examination hypothesis的基础上,进一步假设用户是顺序examine ad的,并把这种检查顺序放到了条件概率里面

multiple-click model(wsdm09):在cascade hypothesis的基础上融合了用户的多次点击,隐含假设是,在一个结果列表中,用户通常要通过多次点击来完成需求满足。具体做法上,对于某个ad,将用户点击和非点击的概率线性插值起来,整体做法上还是类似cascade hypothesis的。

DBN(wsdm09):套用DBN来对用户examine和点击进行建模

上面三种方法,实验结果中,貌似DBN最好,不过,看到logistic作为baseline,也不差

3 - 4:depend on ad externality

这个假设,将ad列表中ad之间的关系也建模进去了,貌似更加脱离实际应用。

temporal click model(sigir09):关键假设是,一个ad如果和更高质量的ad放在一起展示,那么这个ad的点击率会下降。用graph model来描述这种关系。

relational click predication(wsdm12):关键假设,展示的ad列表,ad之间的相似程度会影响ad的点击率。作法,将ad列表作为一个整体对待,而不是针对每个ad进行分别对待,用crf来描述。

3 - 5:depend on user intent

task centric click model(kdd11):关键假设,用户逐渐精细化的表述他的需求(通过越来越精确的query),并且倾向于点击不在从前query中出现的文档(新文档)。用graph model来做的。

【点击模型学习笔记】A survey on click modeling in web search_Lianghao Li_ppt,布布扣,bubuko.com

时间: 2024-08-07 08:40:15

【点击模型学习笔记】A survey on click modeling in web search_Lianghao Li_ppt的相关文章

【点击模型学习笔记】Modeling contextual factors of click rates_MS_AAAI2007

概要 并没有觉得这是篇高质量的文章,很奇怪为什么能够发表在AAAI上面. 文章的创新点比较单薄:在传统点击率预测模型(LR)的基础上加入了两类新的特征,一个是位置特征,一个是广告上下文特征--即和它并排展示的其他广告的特征 具体内容 1. 建模 文章中,作者用了两种模型: (1)逻辑回归模型 作者用0-1特征,将位置信息作为一个种特征加入到模型当中:输出结果也是0-1二分类,表示用户是否点击了这个广告. 值得注意的是:作者认为,训练出来的模型参数,某个特征的系数值比较大,则这个特征也比较重要--

【点击模型学习笔记】Ad centric model discovery for redicting ads' click through rate_ANT2013_Tencent

腾讯soso的人写的一篇文章,介绍soso广告系统的ctr预估技术.2013年的,应该反映了当前soso的ctr预估系统的情况. ANT会议质量一般,elsevier出版社出版.搞笑的是,文章摘要居然把论文模板上的这句话"Click here and insert your abstract text"原封不动的写在了第一句,并且就这样发表了! 主要内容: 描述soso搜索结果页面中广告点击率预测的系统实现. 具体内容: 1. 相关工作 Rechardson用逻辑回归来预测ctr ki

【点击模型学习笔记】广告点击率估算技术综述_华东师范大学学报2013

概要: 不是一篇高质量文章,不过是一篇还算不错的综述,而且时间够新(2013). 具体内容:按照文章原本内容顺序罗列 0. 介绍 * 赞助商广告:投放到搜索结果页面 * 情境广告:在网页某个位置上投放,一般由广告联盟介入 1. 广告点击率预测的应用背景 * 广告点击率一般比较低,能达到0.2%就已经是很好的投放了 * 大量的广告.查询都是很稀疏的 * 利用用户点击行为的,除了点击率预测,还有两个领域:搜索结果排序和推荐系统 * "Inferring Clickthrough Rates on A

【点击模型学习笔记】Predicting Clicks_Estimating the Click-Through Rate for New Ads_MS_www2007

概要: 微软研究院的人写的文章,提出用逻辑回归来解决ctr预估问题,是以后ctr的经典解决方案,经典文章. 具体内容: 名词: CPC -- cost per click CTR -- click through rate 1. 研究初衷 搜索引擎主要靠商业广告收入,在广告位上面打广告,用户点击,之后广告商付费.在通用搜索引擎,通常广告位置是在搜索结果之前,或者在搜索结果右边. 商业广告收入 = pClick * CPC 要提升广告收入,关键问题是在有限的广告为上面,放什么广告?很自然的想法就是

【点击模型学习笔记】Inferring clickthrough rates on ads from click behavior on search results_wsdm2011

概要: 看这篇文章的初衷,是这篇文章回答了问题"在一个query的结果当中,给出多少个广告位合适?".文章不长,不过一路看下来,发现貌似不是native-english-speaker写的,细节说的不清楚,完全无法还原作者的工作思路.不过还是有那么一点儿收获的. 具体内容: 搜索主要的赚钱方式是在搜索结果当中嵌入广告,一般来讲是按照广告的点击次数来付费的.这样,就有一个趋势,如果想要赚钱多,就在搜索结果中越来越多的植入广告,使得广告的点击次数越来越多,则赚的钱就越来越多:不过,也有研究

DOM事件模型学习笔记

下面的内容属于阅读笔记,其中涉及大量内容来自于PPK的博客的内容,如果你要跟随我的脚步领略大家风采,那么就从Introduction to Events开始阅读吧. 现代的前端开发应该是会严格遵守 html 展示文档内容构成,css 渲染页面效果,javascript 提供交互 浏览器提供交互行为可以追溯到Netscape公司在其第二个版本中支持javascript语言,随后其与微软之间的浏览器大战,以及w3c标准制定的落后,导致至今一直被诟病的浏览器兼容问题,而这些不兼容中关于DOM事件模型的

概率图模型学习笔记(二)贝叶斯网络-语义学与因子分解

概率分布(Distributions) 如图1所示,这是最简单的联合分布案例,姑且称之为学生模型. 图1 其中包含3个变量,分别是:I(学生智力,有0和1两个状态).D(试卷难度,有0和1两个状态).G(成绩等级,有1.2.3三个状态). 表中就是概率的联合分布了,表中随便去掉所有包含某个值的行,就能对分布表进行缩减. 例如可以去掉所有G不为1的行,这样就只剩下了1.4.7.10行,这样他们的概率之和就不为1了,所以可以重新标准化(Renormalization).如图2所示. 图2 反之也可以

Probability Latent Semantic Analysis (PLSA) 模型 学习笔记

Probability Latent Semantic Analysis (PLSA) 模型 学习笔记 PLSA是前面LSA的兄弟版,相比于LSA而言,PLSA定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释了.这篇博文我们分三部分来说PLSA:基本思想,EM算法推导,以及优缺点分析. 1.  PLSA的基本思想 PLSA是一种主题模型topic model,是针对文本中隐含的主题来建模的方法.PLSA就是给定了文档d之后,需要以一定的概率选择与文档相对应的主题z,

Latent Semantic Analysis (LSA) 模型 学习笔记

Latent Semantic Analysis (LSA) 模型 学习笔记 Latent Semantic Analysis 模型,隐性语义分析,也就是我们常说的LSA模型.后面还有他的兄弟PLSA和LDA模型,这个我们后面再说.这几个都是NLP中比较经典的模型!学习这个模型,主要总结到了三个方面:LSA模型可以应用在哪儿?LSA的理论部分,以及LSA的优缺点分析. 1. LSA的应用 LSA可以在VSM中降低样本的维度,并且可以从文本中发现隐含的语义维度. 在VSM中,文档被表示成由特征词出