搜索引擎反作弊之:整体技术思路

目前搜索引擎作弊手段五花八门,层出不穷,作为应对方的搜索引擎,也相应调整技术思路,不断有针对性地提出反作弊的技术方案,所以如果整理反作弊技术方案,会发现技术方法很多,理清思路不易。

尽管如此,如果对大多数反作弊技术深入分析,会发现在整体技术思路上还是有规律可循。从基本的思路角度,可以将反作弊手段大致划分为以下三种:“信任传播模型”、“不信任传播模型”和“异常发现模型”。其中前两种技术模型可以进一步抽象归纳为“链接分析”一章提到的“子集传播模型”,为了简化说明,此处不再敷述,而是直接将这两个子模型列出。将具体算法和这几个模型建立起关系,有助于对反作弊算法的宏观思路和相互联系树立起清晰的概念。

8.5.1信任传播模型

图8-6展示了“信任传播模型”的示意图。所谓“信任传播模型”,基本思路如下:在海量的网页数据中,通过一定技术手段或者人工半人工手段,从中筛选出部分完全值得信任的页面,也即肯定不会作弊的页面(可以理解为白名单),算法以这些白名单内的页面作为出发点,赋予白名单内的页面节点较高的信任度分值,其它页面是否作弊,要根据其和白名单内节点的链接关系来确定。白名单内节点通过链接关系将信任度分值向外扩散传播,如果某个节点最后得到的信任度分值高于一定阈值,则认为没有问题,而低于这一阈值的网页则会被认为是作弊网页。

图8-6 信任传播模型

很多算法在整体流程和算法框架上遵循如上描述,其区别点往往体现在以下两方面:

a.如何获得最初的信任页面子集合,不同的方法手段可能有差异。

b.信任度是如何进行传播的,不同的方法可能有细微差异。

8.5.2不信任传播模型

图8-7 不信任传播模型

图8-7展示了“不信任传播模型”的整体框架示意图。从大的技术框架上来讲,其和“信任传播模型”是相似的,最大的区别在于:初始的页面子集合不是值得信任的页面节点,而是确认存在作弊行为的页面集合,即不值得信任的页面集合(可以理解为黑名单)。赋予黑名单内页面节点不信任分值,通过链接关系将这种不信任关系传播出去,如果最后页面节点的不信任分值大于设定的阈值,则会被认为是作弊网页。

同样,很多算法可以归入这一模型框架,只是在具体实施细节方面有差异,整体思路基本一致。

8.5.3异常发现模型

异常发现模型也是高度抽象化的一个算法框架模型,其基本假设认为:作弊网页必然存在有异于正常网页的特征,这种特征有可能是内容方面的 ,也有可能是链接关系方面的。而制定具体算法的流程往往是先找到一些作弊的网页集合,分析出其异常特征有哪些,然后利用这些异常特征来识别作弊网页。

具体来说,这个框架模型又可细分为两种子模型,这两种子模型在如何判断异常方面有不同的考虑角度。一种考虑角度比较直观,即直接从作弊网页包含的独特特征来构建算法(参见图8-8);另外一种角度则认为不正常的网页即为作弊网页,也就是说,是通过统计等手段分析正常的网页应该具备哪些特征,如果网页不具备这些正常网页的特征,则被认为是作弊网页(参见图8-9)。图8-8和图8-9体现了这两种不同的思路。

图8-8 异常发现模型一

图8-9 异常发现模型二

尽管反作弊算法五花八门,但是不论采取哪种具体算法,其实都包含了一些基本假设,经常被反作弊算法使用的基本假设有:

  1. 尽管作弊网页喜欢将链接指向高质量网页,但是很少有高质量网页将链接指向作弊网站的现象;
  2. 作弊网页之间倾向于互相指向;

很多算法的基本思路都是从这些基本假设出发来构造的。

java企业级通用权限安全框架源码 SpringMVC mybatis or hibernate+ehcache shiro druid bootstrap HTML5

【java框架源码下载】

时间: 2024-10-25 03:03:29

搜索引擎反作弊之:整体技术思路的相关文章

移动互联网广告 - 第六更 - 移动广告的作弊方法及反作弊 - 2016/12/07

CPC.CPA.CPS 广告的作弊方法 [致敬原作者:NiuGuoZhu - http://www.iamniu.com/2012/09/28/aidma-aisas-cicas/] 介绍媒体对CPC.CPA.CPS广告可能进行的作弊方法.分析作弊方法是为了我们更好的了解对手,为了更好的防作弊. CPC作弊 总的而言,CPC作弊容易,但也容易反查出来的.常用的点击软件进行点击作弊行为. CPA作弊 CPA计费会因为客户对A的定义不同而产生多种情况,比如A有可能是注册,有可能是安装软件,甚至可能是

反作弊基本概念与机器学习的应用(1)

反作弊主要业务流程: 常见作弊方式: 机器作弊:机器刷量.任务分发.流量劫持 人为作弊:QQ群/水军.直接人工.诱导 常见作弊手段: 电商:刷单,刷信誉,刷好评,职业差评师 支付平台:洗钱,诈骗 广告:数据造假.刷流量 (引流-广告展示-广告点击-转化) 自媒体.社交软件:刷粉丝.刷点击.阅读量 搜索:seo使用作弊手段刷排名(案例:2015蜻蜓FM "普罗米修斯"."宙斯"函数,修改转化量.流量在前端展现欺骗投资人,被对手反编译识破) 广告作弊涉及的点击类型分类:

CPC广告反作弊

原文:http://blog.csdn.net/xwm1000/article/details/45460957 CPC广告上线也2年了,从上线以来就一直存在着作弊和反作弊的斗争,刚开始的时候流量少,反作弊只有1.2条规则,我记得曾经有一段时间反作弊挂了将近一周都没有人知道,也从来没有用户有投诉.随着流量的慢慢增多,稀稀拉拉的有一些投诉,记得印象最深的是智能的一个手机用户,投诉了将近有半年,我们这边也组织了很多人去排查,没有发现什么问题,后来从全站的nginx日志来看,发现很多IP的入口都是XX

七成App推广造假,反作弊到底动了谁的蛋糕?

目前移动互联网市场高速发展,移动应用快速增长,随之而来的是黑灰色产业接踵而至,APP   推广刷量.O2O"羊毛党"刷单等作弊现象不断出现.有媒体公开报道,APP 推广七成数据被造假.针对这些问题,在移动互联网安全领域,从业经验超过 10 年的资深手机安全技术专家数盟科技 CTO  张宇平向我们介绍,反作弊技术上的难点是一方面,更难的是动了谁的蛋糕. 通过技术手段解决移动开发者的推广难题 几年前,张宇平和几个朋友发现移动互联网市场有种奇怪的现象:在移动应用的推广方面,一个有效的 App

被信通院白皮书提及的“网易云营销反作弊业务”到底什么来头?

信通院<云计算发展白皮书>封面 近日,信通院对外发布了2018年<云计算发展白皮书>,白皮书提及网易云易盾营销反作弊业务,并点评此业务是衡量云服务商实力的重要因素之一.信通院提及易盾营销反作弊服务 网易云易盾营销反作弊业务,能实时识别刷单.刷票.刷券等营销作弊行为,有效防范羊毛党,为企业营销活动提供安全保护,保障活动效果. 有效遏制羊毛党的背后,不被大家所知的是,易盾实际上为业务安全风险产品国标制定者之一.易盾参与了业务安全风险控制产品和服务技术要求和评估方法的确定,对业务安全产品

网易云易盾中标浙报反作弊服务 助力浙江新闻App健康发展

近日,国内领先的智能业务安全平台网易云易盾和浙报传媒旗下"浙江新闻"达成合作,易盾将为浙江新闻客户端提供大数据反作弊服务,助力浙江新闻抵御刷单.薅羊毛等灰黑产侵害,辅助新闻运营工作健康有序发展,保障广大真实客户的体验和利益. 浙江新闻是浙江日报报业集团推出的第一款移动新闻客户端,正飞速发展为浙江本地政经第一平台.在运营模式上立足本地化,不断探索可视化.互动化.个性化,打造了一系列大数据技术为基础的媒体融合平台,有力促进新闻内容生产.提升新闻内容传播效果.优化新闻客户端发展,也使得用户收

网易云易盾推出面向微信小程序的大数据反作弊产品

近日,国内领先的业务风控服务网易云易盾对外推出面向微信小程序的大数据反作弊产品,源于网易20年的核心业务风控技术与全面稳健的策略模型,有机整合了设备指纹.IP画像.规则引擎等八大能力,可广泛应用电商营销.金融支付.生活服务类小程序场景,帮助企业防范微信小程序端的黑灰产作弊侵害. 易盾安全调查显示,小程序已成为企业业务风险环节新缺口 易盾安全经过调查发现,相比App,大部分互联网开发者还没有足够的能力利用小程序的特性建立起有效的风控策略."羊毛党"通过自己养号或着批量购买的大量微信号,就

用户奖励体系有哪些反作弊的机制?

营销活动中,抽奖系统刷奖.刷票.刷券的人群,俗称羊毛党,常以低成本甚至零成本换取利润.对于羊毛党,大家是又爱又恨. 羊毛党通过大量的手机号和IP.接入打码平台,批量注册各类电商以及O2O帐号,使用批量操作软件刷取商家活动资源,已经实现赚钱自动化和产业化,(俗称"躺着赚钱").羊毛党可使用群控设备批量领取优惠券,人工下单或利用设备技术优势瞬时秒杀,但艰辛致富的道路上怎么能够容忍这般不公? 为防止这种情况的发生,我们需要从源头上对垃圾账号进行识别: · 黑名单库全面:历史黑名单库可以精确识

拼多多通用优惠券漏洞被薅羊毛数千万 你的系统有反作弊防护吗?

1月20日,微博大V @互联网那些事 爆料,拼多多百元通用优惠券的营销推广出现重大漏洞,无论新老用户,都可以0.4元优惠券购买无门槛.不限品类使用的通用优惠券.近日半夜被羊毛党发现后,疯狂购买可以快速到账的话费.加油卡.Q币等.从多个渠道了解,此次漏洞,拼多多至少损失数千万.上图疑似当事人爆料 伴随着互联网疯狂增长,羊毛党在国内已经进化成一个极其庞大,有着专业分工的产业组织,据不完全统计,蝗虫一样的打码平台.刷单羊毛党一年为企业带来的损失超过百亿. 每年的双十一.双十二.情人节等节日大促,都是羊