众所周知,互联网普遍存在的“非人类流量”(NHT, non-human-traffic)干扰广告投放的现象,而公开交易市场又是一个通过实时竞价(RTB)售卖的最低层媒体库存的交易市场,它遍布中小媒体的海量库存,因此实施监控相当困难。造成该问题的原因,一个是许多用户计算机依然运行着老版本的Windows系统,这些系统感染了恶意软件,只要打开计算机,机器人就会在后台运行;另一个是Android手机,在用户毫不知情的情况下,预装或者安装了各种各样应用的情况比比皆是,被各种流氓软件留些后门已是常态,顺理成章地为黑色产业链做贡献。
云联传媒采用以下技术手段对作弊进行甄别。
1、通过云联自有IP库以及第三方合作对来路进行区分,目前可以识别以下五种数据来源:1)数据中心(即IP地址属于互联网数据中心机房)。2)专用出口(即IP地址是中大型机构使用的固定IP互联网接入专线)。3)骨干节点(即IP地址属于运营商路由器节点IP)。4)普通宽带(即IP地址是普通家庭或中小型机构、企业宽带等情况)。5)移动宽带(即IP地址是移动2G/3G/4G等情况)。前三种节点绝大部分都是不真实的流量,RTB参与竞价时会过滤掉。
2、运用机器学习算法和数据挖掘技术产生的IP真实度评分系统,能够识别出人类正常形态的数据。评分体系如下:0~49分:此区段的IP,与人类正常形态差异较大,RTB竞价时会下调或放弃出价;50~99分:此区段的IP,基本符合人类正常访问形态,可视为正常访问来源。
3、对广告投放按唯一用户设置频次控制,降低模拟器或程序自动刷流量的风险。
4、运用数据挖掘技术建立云联自己的反作弊库,从海量日志识别具有欺诈行为的APP、IP,在竞价时做过滤。主要从以下几方面认定:
1)广告点击率异常:指的是虚拟或恶意点击,即Click/PV过高比例,或者起伏很大。
2)访问者指纹信息(浏览器,操作系统等)异常:例如同等条件下占较大比例的访问都来自于同一版本的操作系统或浏览器;或者信息中带有Robot/Spider等标识信息。
3)IP分布异常:通过日志挖掘出某几个IP产生大量的点击或者曝光。
4)广告点击没有对应的曝光请求异常:如果广告同时监测了曝光和点击,广告的点击前都应该出现对应广告的曝光,且绝大多数都应该出现在同时段的曝光日志中。
5)广告访问时间分布异常/规律:某些IP/MZID每分钟定时出现在点击/曝光日志中,或者连续点击/曝光的发生时间的间隔过于规律。
6)广告来源异常:点击或者曝光的Referer可以标记点击或曝光的来源页面,如果大量来源集中在某一页面,且不是广告所在的Web页面,可能存在媒体在其他流量大的地方(如BBS)设置隐藏页面来充当曝光和点击。