概要
并没有觉得这是篇高质量的文章,很奇怪为什么能够发表在AAAI上面。
文章的创新点比较单薄:在传统点击率预测模型(LR)的基础上加入了两类新的特征,一个是位置特征,一个是广告上下文特征——即和它并排展示的其他广告的特征
具体内容
1. 建模
文章中,作者用了两种模型:
(1)逻辑回归模型
作者用0-1特征,将位置信息作为一个种特征加入到模型当中;输出结果也是0-1二分类,表示用户是否点击了这个广告。
值得注意的是:作者认为,训练出来的模型参数,某个特征的系数值比较大,则这个特征也比较重要——在后人的研究中,这是对逻辑回归模型典型误解,其中一种解释就是逻辑回归模型中的特征并不一定是真正相互独立的(虽然LR强制他们独立)
(2)第二种模型
将用户“看到”这个广告作为一个单独的变量进行建模,p(click|ad, position) = p(click|ad, seen) * p(seen|position)——貌似不是他首次提出这个
2. 实验
作者用most frequent query来构建训练集。对于逻辑回归模型,作者尝试了两种方法:(1)针对每个query来建模;(2)对于所有query,建立一个global模型
实验证明,(1)的效果好于(2)。
作者又构建了‘第二种模型’,发现第二种模型的效果比逻辑回归差很多。
再之后,作者加入了广告上下文特征,即’和它并排展示的其他广告的特征‘。不过因为最初的时候,当前广告以及其他广告的选取、排序还不清楚,这个特征如何提取、加入?作者认为,这个特征是前面广告特征的系数的函数,即以这些系数为输入,在此基础上再乘以一个系数。不过在训练之前,这些系数也不清楚。作者用了类似EM的方法来训练,即固定一组系数,训练另一组。
总结:
很奇怪这个文章能发到AAAI上面。
【点击模型学习笔记】Modeling contextual factors of click rates_MS_AAAI2007,布布扣,bubuko.com