受众定向-行为定向

行为定向

行为定向(Behavioral Targeting)

行为定向是前节所前到的f(u)的定向方式,它是对user打标签。用户的哪些行为可以对行为定向有贡献,业界也有一些讨论,我这里列出是的九种类型(按信息强度排序):

1. Transaction,交易行为,对效果广告来说它是最强的信号,这也就是淘宝直通车为什么能营利如此之多,因为Transaction数据的价值远高于其它类型。

2. Pre-transaction,个人使用的一个术语,这种行为还是在Demand Side,是指用户在购买前的一些行为,比如进行商品比价,搜索等,这种行为信息也很强。这两种行为的信息强度和有效性,在效果广告的语境下,都远高出其它七种类型一个数量级。

3. Paid search click,在搜索时的广告点击行为,

4. Ad click,普通广告的点击行为,广告的点击行为被认为是比较强的信号是因为广告本身不是一个很吸引人的事物,在广告中产生的一个点击,表示用户有明确的目的去了解这个信息。个人认为Ad Click比Paid Search Click要差一些,主要是因为采集Ad Click时的数据噪声,因为Banner广告,特别是在中国环境中,很多时候是依靠骗点击生存的,比如一个广告突然弹出,你猝不及防就点击了,或是本来看起来是链接,但用户点击,其实是一个广告。

5. Search click,在search上产生的点击。

6. Search,搜索本身,它本身也算强信号。上面这四种是信息强度第二强的四种类型,下面三种是数据量很大,但本身作用不大。

7. Share,社交网络中的分享,它表示很强的兴趣,但不Search那样主动,

8. Page View,它是网络中的主要行为,但它在大多数情况下是被动行为。比如用户在新闻网站上浏览,他挑选一些感兴趣的新闻浏览,但门户中的新闻却是由网站决定的固定数量的新闻。并且这种行为离Demand太远,比如查看钓鱼岛的新闻这个行为,很难与广告主的需求直接发生拉关系,再比如一个用户经常浏览凤凰军事,你可以通过他的行为对他打上军事的标签,但很难找到广告主愿意选择这样的标签。

9. Ad View,它在Targeting运算中是起负影响的,因为一个用户看到相同广告次数越多,他疲劳感越强。如果采用线性模型,这个行为是一个负系数。

计算行为定向的框架是很简单的,t(i)(u)表示用户u在i上的标签。先收集用户的原始行为,比如图中示例给出的收集了用户的浏览行为PV,浏览过什么页面,搜索行为search,搜索了哪些关键词,广告点击ad click的内容,点击了哪些广告。然后对每一种行为打标签。即每种原始行为会转化成一组标签,比如PV中用户的访问过钓鱼岛新闻,那么可能会被打上军事和新闻标签。Search行为,比如用户搜索过京东商城,可能会被打上电商的标签。Ad Click,因为广告本身就有品类,所以打标签很容易。用户的标签是将稳中有各种行为所打的标签加权累加的结果,比如在标签1上,PV的标签值为2,Ad Click的标签值为1,相加得到用户在标签1上的和为3。这种方法看上去非常na?ve,但实际系统中大多采用这种方法,在论文中会将它解释成相对复杂的过程,比如用Gamma,Poisson Process描述,但本质上是类似的。Yahoo!的一个技术领导经常说到:在海量数据上,你首先要做到的一个Shallow的挖掘,让系统运行起来,一开始就使用复杂的模型,不容易在工程上使用。虽然这个框架看上去很简单,但是对PV和Search打标签本身就涉及到机器学习中的分类问题,所以它并不非常简单。

再强调一点,越是信号强的行为,它的数据量往往就会有限制,比如Transaction比起PV就小几个数据级,再比如Ad Click虽然它的强度还可以,但它的量非常少,所以这种行为用途不大。

行为定向的其它问题

Sesson Log

在工程上,我们需要各种的行为日志,这些日志最有效的组织方式是以用户ID为key的形式,比如在PV这种行为上,记录用户看过的网页URL是哪些,分别有几次。以用户ID为Key听上去非常na?ve,但如果注意这点,会给后面工程上带来很多的便利。这样对targeting时就可以每个记录独立计算,不需要一些全局的计算。

多日累积方式

我们在进行用户行为定向时,会使用多天的数据,我们往往用整周数,比如28天,35天。但这样有一个问题,用户每天计算出的标签并不一致,就产生了如何对多天的标签进行累加的问题。有两种方式来处解决这个问题

1.     滑动窗口方式,f为long-term标签,下标为日期。将每天的标签加起来就可以了。但这种方式的问题是要保存前T天的数据。

2.     时间衰减方式,它是昨天的累加值乘上一个衰减因子(可能是0.95),再加上今天的标签值。这种方式空间复杂度低,仅需昨天的f和今天的t。

我认为没有必要讨论这两种方法的优缺点,因为效果应该是差不多的。个人推荐时间衰减方式,因为它不需要保存前T天的所有数据。另一个问题是T值如何得到,T的取值是与标签的性质有关,比如汽车标签,它的T值应该取的比较大,因为购车是一个长期的过程,但如果是运动鞋,因为比买鞋到决策是一个很短的时间。所以对不同的标签应该有不同的T,在不同的标签上自动学习出T,这方面的讨论还不多,一般是按经验来做。但这里是一个有很大优化空间的地方。

受众定向评测

行为定向既然是一个机器学习的问题,那我们就需要一个数据评测的方法。

在打标签的过程中,需要设置阈值,比如用户在T天只访问过汽车网站一次,就对他打上汽车标签是不合理的,阈值的设置有两方面的原因,1. 因为标签要存于线上的KV数据库,如果不设阈值,数据量会非常大,并且没什么必要。2. 因为长尾的行为是有噪声的,加载这些数据可能没有好处。所以对一个用户是不是打汽车标签,是由设置的阈值决定的,随着阈值调的越来越小,被打上汽车标签的人群就越多,而在汽车品类上的效果越来越低,图中是以CTR为效果。图中的曲线也是符合人的直觉的,这个曲线在评测Targeting效果是有指导意义的。

图中有几个要注意的地方。1. 在reach到100%的人群时,即阈值为0的时候,实际就是没有进行Targeting的情况,所以reach=100%的时候它的CTR取值是一个固定值,与所用的模型无关。Targeting的目标就是让曲线尽量向上,在工程中,因为数据或是算法的原因,这个曲线不一定是单调减的曲线,可能前面反面低,前面低是一个很危险的状态。如果取阈值较大时,效果反面不如reach=100%的时候,那说明这个标签是没有价值的。2. 在数据和算法比较合理时,曲线可能有一个拐点,拐点的物理含义是在拐点之前的是真正属于这个品类的用户,他们的点击率较高,而拐点之后点击率会迅速下降。知道这个拐点,就可以知道大概该品类真正有价值的用户大概有多少,这对GD广告中销售流量是有指导意义的。

时间: 2024-10-13 22:11:39

受众定向-行为定向的相关文章

互联网精准广告定向技术: 一切你该了解的知识总结与整理

转于:http://www.damndigital.com/archives/58893 第一方Cookie和第三方Cookie 大多数的第三方监测工具和网站分析工具都会采用第三方Cookie.所谓第一方和第三方的说法,是用来确定Cookie的归属的,这个归属是指 Cookie中记录的域(domain).第一方和第三方的唯一区别只是:Cookie中的域名是否和被访问网站的域一样,是就是第一方,否就是第三方. 举个例子:如果你访问网站www.chinawebanalytics.cn的时候,网站在你

定向和旋转向量四元数之间的关系

其实在前面的文章中我觉得应该给大家介绍一下.我们所讨论的姿态问题是几何中的定向问题, 在三维空间中我们如果需要知道一个刚体的具体方位,可以选定一个点这个点相对于刚体本身不会 动,但是这不足以了解运动的全貌,我们还需要一个旋转角度来确定. 以上的内容可以这样想象,在我们研究物理问题中常常采用质点的方法.比如在北京开往武汉的火车这个问题上,我们可以吧火车等效为质点,但是如果研究轮子的话,不仅需要位置的平移还需要角度的变化..额不知道大家理解没. 正是这个问题是惯导技术的基石我个人认为,在之后逐渐就有

20170428 关于headers和user_agent的文章自用

截止今天,关于精准广告定向技术的介绍已经全部写完.介绍的写作初衷是总结自己的知识,将知识从片段的.隐形的转化为可以向别人讲述.能够给人帮助的.在总结的过程中自己也提升了很多,同时希望这些内容能够切实的给刚进入这个行业的同学们以帮助. 一.基础知识篇: Http Header之User-Agent User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA.它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本.操作系统及版本.

巧用UserAgent来解决浏览器的各种问题

以前对UserAgent了解不是很透彻,今天发现UserAgent用处多多.比如我之前一直很喜欢用火狐浏览器,不过用了那么久发现火狐浏览器问题多多,比如有的论坛上传附件或者上传图片等按钮没有作用,并且今天发现火狐浏览器还播放不了新浪视频.本来以为是我安装的扩展或者脚本冲突的问题,于是我用火狐原版试了一下,也就是没有任何扩展和脚本,然后发现问题依然存在,这就说明了是火狐本身的问题,我之前在网上找了很久都没有找到合适的解决办法.今天看见一个地方说可以通过修改浏览器信息来解决新浪视频播放不了的问题,这

Linux概念与体系阅读笔记

[Linux概念与体系教程http://www.cnblogs.com/vamei/archive/2012/10/10/2718229.html] 1.Linux开机启动(bootstrap) 启动顺序:BIOS -> MBR -> boot loader -> kernel -> init process -> login BIOS:Basic Input/Output System MBR :Master Boot Record 2.Linux文件管理 (1)文件附件信

广告引擎解析

广告引擎 总体设计 检索服务 广告检索流程 广告定向 定向维度下的选项很少,可以枚举,这类定向包括,性别,年龄段,网络,系统. 我们的系统现在是如何处理这类定向的 定向维度有级联关系,省,市,区 定向维度是按照某个坐标附近N公里定向 检索服务是数据库的副本 CTR计算 计算二价 ADX广告 曝光服务 计费服务 计费服务主备 浮点数问题 广告引擎 总体设计 我们的基本架构是客户端请求API,然后由API发送RPC请求到我们的服务,服务通过注册中心来管理 检索服务,根据数据库中的广告建立索引,订阅R

计算机网络知识

连接层 地址解析协议:ARP协议(ARP介于连接层和网络层之间,ARP包需要包裹在一个帧中)的工作方式如下:主机会发出一个ARP包,该ARP包中包含有自己的IP地址和MAC地址.通过ARP包,主机以广播的形式询问局域网上所有的主机和路由:我是IP地址xxxx,我的MAC地址是xxxx,有人知道199.165.146.4的MAC地址吗?拥有该IP地址的主机会回复发出请求的主机:哦,我知道,这个IP地址属于我的一个NIC,它的MAC地址是xxxxxx.由于发送ARP请求的主机采取的是广播形式,并附带

插入三维对象

原文 插入三维对象 Expression Studio 4.0 其他版本 Microsoft Expression Blend 提供了很多用于创建.修改和动态显示三维对象的实用工具. Expression Blend 可以导入 .obj 文件格式的三维内容.为了让这些文件能够正确呈现,还必须导入材料文件(.mtl 文件),该文件定义了三维对象上使用的材料,并导入材料文件中使用的所有图像文件. 三维内容包含在“Viewport3D”控件中.该视区用作三维内容的一种包装或容器.您可以在“属性”面板中

Java单播、广播、多播(多播)

一.通信方式分类 在当前的网络通信中有三种通信模式:单播.广播和多播(组播),其中多播出现时间最晚,同时具备单播和广播的优点. 单播:单台主机与单台主机之间的通信 广播:当台主机与网络中的所有主机通信 多播:当台主机与选定的一组主机的通信 二.单播 单播是网络通信中最常见的,网络节点之间的通信 就好像是人们之间的对话一样.如果一个人对另外一个人说话, 那么用网络技术的术语来描述就是“单播”,此时信息的接收和传递只在两个节点之间进行. 1. 单播的优点: (1)服务器以及响应客户端的请求: (2)