【paper】KDD15 - Interpreting Advertiser Intent in Sponsored Search

Interpreting Advertiser Intent in Sponsored Search

主要内容是搜索广告的相关性预估模型,使用learning to rank的方法。亮点在于使用了用户query和广告关键词的自然搜索结果特征来训练相关性

预估模型。

 

背景

相关性预估 -> 用户体验 + 收入,好的相关性有助于搜索引擎好的用户体验和长期持续的收入。

传统做法: 特征来源主要来自 query + 搜索广告,通过理解用户query和广告,来判断相关性。

本文研究表明挖掘客户意图可以显著提升相关性

利用客户购买词的搜索结果,特征来源扩展为:query + 搜索广告 + 客户购买词 + 购买词搜索结果

线下 auc+43.2%  线上2.7%

搜索广告背景:

搜索引擎背景:

精准匹配 + 模糊匹配(同义词,扩展词,rewrite)

点击计费cpc

不相关广告,伤害用户体验:

用户搜索 天气, 出广告“羽绒服“ ,用户意图为天气查询

用户搜索京东,出苏宁广告

量化用户相关性可以从以下几方面着手:

  • 用户搜索query,用户意图,短文本,意图难以准确识别(辅助信息:session,点击信息,query校正等)
  • 广告创意 , 信息较准确反映客户意图,广告title信息也不足,落地页质量较差
  • 落地页
  • 广告关键词

四要素

本文致力理解广告关键词

基本假设

1, 客户购买词反映客户的基本意图和流量需求

2,搜索引擎query理解能力较强

用户相关 : 用户query + 用户query自然结果

广告相关 : 广告关键词 + 广告关键词自然结果 + 广告创意 + 广告落地页

双刃剑:

?? 客户的购买词真是表达了客户想要reach的用户以及想要获得的那部分流量,创意和url相对固定

带来的问题是:

  • 客户乱买词肯定引起相关性下降,比如,苏宁客户购买“京东关键词”
  • 客户买词会潜在提高相关性,啤酒和尿布的故事
  • 问题在于如何评价是否相关,主观因素太强!!!

做法:

  1. 用户query和广告关键词取前40个自然结果
  2. 去自然结果页的title,snippet,描述,ODP分类,url
  3. 去停用词,进行porter stemmer主干提取【1】
  4. 将以上的词干连接,形成bow
  5. 使用LambdaMART进行训练【2】

baseline 特征,共1+3*6=19个 :

  • query长度
  • query 和 titile 的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
  • query 和 desc的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
  • query 和 url的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离

重合度计算公式:

新增特征,共6*9=54个:

  • 创意标题与广告kwd搜索结果title,创意描述与广告kwd搜索结果描述,创意描述与广告kwd搜索结果snipet
  • Landing Page title与广告kwd搜索结果title,Landing Page正文与广告kwd搜索结果描述,Landing Page正文与广告kwd搜索结果snipet
  • Query与广告kwd搜索结果title,Query与广告kwd搜索结果描述,Query与广告kwd搜索结果snipet

使用query的自然结果辅助理解用户意图,query自然结果与广告关键词的重合特征

自然结果会返回网页分类,因此query的自然结果和广告kwd的自然结果会返回两个分类列表,可以计算分类相关性:

这样可以捕捉语义升相关性,比如 鞋子和靴子,按照这种分类相关性,可以得到较好的结果

广告的domain在用户query的自然结果中出现,表明结果较相关

广告的domian在广告关键词的自然结果中出现,表明广告主意图与客户购买词较相关

新增特征2,18 + 1 + 2= 21:

  • query自然结果title和kwd自然结果title,query自然结果desc和kwd自然结果desc,query自然结果snip和kwd自然结果snip
  • 自然结果类别相关性
  • domain 重合个数

训练集:

128万人工标注(query, ad) pairs,打分1-5,5表示最相关,32万hold-out

实验结果:

模糊匹配下准确率提升比精准匹配大,因为模糊匹配下,使用更多的信息,有助于提升相关性判断信息

增加query search特征,效果好很多,说明query seach特征作为连接信息,更多的连接了广告和query的信息

对于本来就高相关性的广告,预估效果更好,原因是高相关性的广告的自然结果交叉特征中存在更多的重合项

线上真实结果:

精准匹配下基本上无效果,说明精准匹配下,工业产品已经处理很好了

模糊匹配下QS提升明显

LambdaMART可以看出各个特征的重要性,最重要的三个特征,都是QS特征:

i) ad domain count in query organic results, 广告域名在query自然结果出现次数

ii) ordered bigram overlap between snippets of organic results for

query and ad keyword , snippet重合度

iii) ad domain count in ad keyword organic results. 广告域名与广告关键词搜索结果匹配度

query特征中最重要的是:

i) word unigram overlap between query and snippets in organic results for ad keyword

ii) order word bigrams between query and titles of the organic results for ad keyword.

【1】 http://qinxuye.me/article/porter-stemmer/

【2】http://blog.csdn.net/huagong_adu/article/details/40710305

时间: 2024-11-09 19:16:08

【paper】KDD15 - Interpreting Advertiser Intent in Sponsored Search的相关文章

【Android】12.2 利用Intent启动和关闭Activity

分类:C#.Android.VS2015: 创建日期:2016-02-23 一.简介 Android应用程序中一般都有多个Activity,在Activity中,通过调用StartActivity方法,并在该方法的参数中传递Intent对象,就可以实现不同Activity之间的切换和数据传递. 通过StartActivity方法传递intent对象来启动另一个Activity时,可分为两类: l 显式启动:在创建的Intent对象中明确指定启动的是哪个Activity: l 隐式启动:安卓系统根

【Android】12.4 利用Intent读取图库中的图片

分类:C#.Android.VS2015: 创建日期:2016-02-23 一.简介 该示例演示如何从图库(Gallery)中读取图像并用ImageView将它显示出来. 二.示例-ch1203ReadGallery 运行本示例前,需要先利用相机模拟拍摄一些图片到图库中. 1.运行截图    2.主要设计步骤 (1)添加ch1203_ReadGallery.axml <?xml version="1.0" encoding="utf-8"?> <L

【S1】1.基本知识 &amp; intent初步

2015-05-02 ----曾经看过的现在忘记的也差不多了,于是才终于发现,只有认真做笔记才能更好的掌握. 如果不是因为迫于生计,没有人会去用java.——许多程序员 (吐槽结束) 站在应用层进行开发,且在没有时间,大作业deadline就要到了的情况下,熟悉API,有一个好的API查阅习惯是最需要的.而且熟悉API是学习语言最为根本,不会因语言过时而丢失的好处. 所用IDE为Android studio. Android studio下载各版本API稍有难度,我现在电脑上仅有version2

【转】Android Activity和Intent机制学习笔记----不错

原文网址:http://www.cnblogs.com/feisky/archive/2010/01/16/1649081.html Activity Android中,Activity是所有程序的根本,所有程序的流程都运行在Activity之中,Activity具有自己的生命周期(见http://www.cnblogs.com/feisky/archive/2010/01/01/1637427.html,由系统控制生命周期,程序无法改变,但可以用onSaveInstanceState保存其状态

【Paper】Learning Globally-Consistent Local Distance Functions for Shape-Based Image Retrieval and Classification

参考资料: Learning Globally-Consistent Local Distance Functions for Shape-Based Image Retrieval and Classification,Andrea Frome etc. 昨晚总结完就睡着了,今天不知道为什么手欠给拉到废纸篓里面还强迫症上身把废纸篓清空了,哎,终于写回来了,都快被自己蠢哭了=.=

【原创】leetCodeOj ---Convert Sorted List to Binary Search Tree 解题报告

原题地址: https://oj.leetcode.com/problems/convert-sorted-list-to-binary-search-tree/ 题目内容: Given a singly linked list where elements are sorted in ascending order, convert it to a height balanced BST. 方法: 单纯.如何安排插入顺序,使得一棵二叉排序树接近平衡? 你从中间开始插嘛.这样左子树和右子树之差或

【LeetCode】109&amp; - Convert Sorted List to Binary Search Tree&amp;Convert Sorted Array to Binary Search Tree

Given a singly linked list where elements are sorted in ascending order, convert it to a height balanced BST. Solution 1:  recursion runtime: 28ms. /** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode *next; * ListNode(i

【MAVEN】搜索错误“Index downloads are disabled,search results may be incomplete”

出现上面这个错误,需要将Maven的索引下载到本地. 应用后,在Window -> Show View -> Other -> Maven -> Maven Repositories 点击OK后,在 Global Repositories 下面,右击central进行索引: Maven的索引就有两三个G,比较大,建议在网络比较好的时候更新.

【easy】108. Convert Sorted Array to Binary Search Tree

Given an array where elements are sorted in ascending order, convert it to a height balanced BST. For this problem, a height-balanced binary tree is defined as a binary tree in which the depth of the two subtrees of every node never differ by more th