社交网络与反欺诈

设备指纹

一般都是基于某些设备信息,通过一些设备指纹算法会将这些信息组合起来,通过特定的hash算法得到一个最后的ID值,作为该设备的唯一标识符。常见的元素有:

  • sim卡信息
  • wifi信息
  • 硬盘信息
  • 内存信息
  • 屏幕信息
  • 设备的传感器特征,比如麦克风、加速传感器、摄像头等信息
  • 浏览器本身的特征,包括UA,版本,操作系统信息等
  • 浏览器中插件的配置,主要是插件的类型与版本号等
  • 设备操作系统的特征,比如是否越狱等
  • 浏览器的Canvas特征,影响该特征的因素有GPU特性造成的渲染差异,屏幕的分辨率以及系统不同字体的设置等

主动式设备指纹技术需要在客户端上植入自己的Javascript或SDK代码,主动收集设备相关的特征,用以标识设备和用户。在特征的选取上,需要考虑特征的稳定性和准确度。理想的特征应该在一定的时间段内不会因为外界的条件变化、或是用户的操作行为而发生变化(比如上面那些,而像用户的通讯录的总联系人数这种就不适合),同时在不同的设备上具有显著的差异。

知识图谱

知识图谱反欺诈的效果怎么样?结合公司新上的产品思考下。

把不同的信息连到一起,其实关键是哪些信息是你所重点关注的应该把它作为一个实体,而不是节点属性,图谱的设计。

关联可能考虑,设备指纹、通讯录、社交平台上的好友关系、评论关系、是否在同一个城市(粗一点)

主要应用场景:

  • 反欺诈(主要是团伙欺诈)
  • 风险预测(从图谱网络中抽取一些feature放到评分卡里用,需要考虑时间穿越问题)
  • 催收(挖掘一些可以触达的失联客户的联系人)
  • 精准营销(匹配用户最合适的贷款产品)
  • 智能搜索

举个例子来说明构建知识图谱的流程,此处我们采用个人信息(也可以是设备指纹,总之有可能是虚假的数据)进行一个场景构建。

1)通过对数据进行清理,抽取,构建知识图谱的节点,比如工作地址,姓名,身份证,GPS,工作地点,单位,IP,联系人手机号,等等。

2)比较好的方式是建立基础信息表,然后不断更新,这种方式比较好的原因是可以防止异常,可以保证数据最终一致性。这个就会根据不同情况,构建不同基础数据表,少则十几个,二十几个,多的可以成百上千。

3)基于清洗后的信息,进入图数据库,构建出整个知识图谱。(姓名一样可能会被连在一起、身份证一样可能会被连在一起)

4)基于图算法进行相关的特征抽取或者通过网络结构进行负样本挖掘(标签传播)

欺诈的难点,在于把不同来源的数据汇总到一起构造欺诈引擎是一件比较困难的事情。一部分是要爬数据,还有就是爬出带来的数据千奇百怪。

特征抽取:

  • 不一致性检验

在团簇中,如果用户的信息与我们的正常理解有严重偏差,那么这种团簇很可疑;如两个用户拥有同个家庭wifi,但所填家庭地址相差甚远,显然与现实不符。这里需要大量的人工干预,因为我们不能通过欺诈标签做相关的统计分析,更多的要靠经验判断。当然如果标签得当,我们其实可以通过做相似性度量来进行筛选重要的关联特征,作为规则的。

  • 静态分析

给定时间节点,去尝试发现图形结构的异常子图。

  • 动态分析

分析结构网络|随着时间变化的趋势

  • 关联特征提取

对网络特征的直接提取,提取出中心度或一度二度关联特征可供上层规则系统或风险评估模型使用。基本思想仍然是在网络中社交越广泛,越有可能是一个坏人。

反欺诈对于实时决策的需求很高,这些指标都需要实时提取。其中一些指标,比如二度关联度, 在一般的情况下计算复杂度是很高的。在动态图的情形下,一般会采取一些近似的算法并进行预计算。

网络信息挖掘:

  • 社区发现

组团欺诈的挖掘难度非常大,它会藏在非常复杂的组织网络中,很难发现,只有当我们把隐含的关系网络梳理清楚了,才有可能发现潜在的风险,图谱可以帮助识别(信息共享,把内在图关系挖掘出来)。

  • 失联模型

挖掘更多的潜在的可触达联系人。

负样本生成:

  • 染色

染色本质就是一种基于关联图谱的半监督学习方法,我们知道在反欺诈的场景下,一个典型的困境就是欺诈标注非常少,获得的代价非常高,而我们要做一些监督式的机器学习,却又非常依赖于标注。因此如果能用少量的欺诈标注样本产生出更多的标注,就能最大程度利用欺诈样本。这就是染色的初衷,欺诈标注会沿着网络里的边从一个节点传播到另一个节点。

染色从直觉上比较容易理解,我们经常说近朱者赤,近墨者黑。一个用户和坏用户有关联,其实很有可能他本身就是有问题的。这里放一个数据,根据分析得到,一个客户一旦出现在某个坏客户的通讯录中,就有70%的概率会变坏。

原文地址:https://www.cnblogs.com/fionacai/p/12228442.html

时间: 2024-10-27 05:08:50

社交网络与反欺诈的相关文章

大数据反欺诈技术架构

一年多以前,有朋友让我聊一下你们的大数据反欺诈架构是怎么实现的,以及我们途中踩了哪些坑,怎么做到从30min延迟优化到1s内完成实时反欺诈.当时呢第一是觉得不合适,第二也是觉得场景比较局限没什么分享的必要性. 时间也过了很久了,最近看到圈里一些东西,发现当时的这套架构并未落伍,依然具有很大的参考价值,所以今天跟大伙聊聊关于大数据反欺诈体系怎么搭建,主要来源是来自于我工作的时候的实践,以及跟行业里的很多大佬交流的实践,算是集小成的一个比较好的实践. 这套架构我做的时候主要领域是信贷行业的大数据反欺

从互金安全到互联网反欺诈,互金何时能解忧

随着互联网金融的快速发展,互金已经迅速渗透到人们的日常生活中,包括p2p理财.第三方支付等平台,都为我们的生活带来了便利.然而,互联网金融平台上汇集着众多用户的个人身份.银行卡账号等数据,一旦遭遇黑客的恶意攻击,系统内的数据安全就没有了保障,甚至还会出现泄漏个人身份.交易信息等状况,严重影响到了用户的财产安全. 根据中投融的数据显示,2015年被抽样检测的国内100个金融网站中,存在高危漏洞的网站占比达到53%.前段时间支付宝也出现安全漏洞,导致部分用户账号内的财产被盗刷,损失严重,也使得人心惶

基于大数据的银行反欺诈的分析报告

0,大数据知识背景. 在我第一次接触大数据的时候,那个故事便是“啤酒和尿布”. 是美国沃尔玛超市的一则营销案例.每到周末的时候,啤酒和尿片的销量很高,经分析,原来是周末电视转播球赛,男人们要一边喝酒一边看球,受冷落的妻子们只好出门逛街或找闺蜜吐槽,照顾孩子的任务自然就归了男人们.于是,男人们在买啤酒的同时随手买尿片.超市把啤酒和尿片放到一起,自然就提高了销量.还有一些案例,如google对流感病毒散布的预测,如洛杉矶警察局对犯罪的预测,乃至对机票价格波动的预测,对天气的预测,这都是大数据的范畴.

人工智能反欺诈三部曲之:设备指纹

上次我们着重介绍了反欺诈的一项核心技术:特征工程. 在反欺诈的技术金字塔中,特征工程起着承上启下的作用.而居于特征工程的下一层的是基座层:数据.在机器学习里,大家有一个共识,高质量.相关的数据决定模型预测能力的上限,模型只是去逼近这个上限.数据就像原油,好的特征就像汽油,而模型就是引擎,三者缺一不可.作为基座层的数据层的一个重要组成部分是设备终端和网络风险,Gartner的经典五层模型同样将其列为最基础的数据.今天我们就来探讨一下处于这一层的设备指纹以及由此衍生出来的设备风险识别. ? 背景 ?

决策引擎在支付行业的反欺诈应用

批准还是拒绝 收到交易请求 - 以在线支付方式购买价格为1500元的手机.批准还是拒绝? 某全球大型在线支付公司每天都处理上千万笔类似的请求.金融支付与科技创新深度融合,支付产品及场景更加丰富,支付更加简单.安全.方便.为了使服务体验不断优化.支付安全更有保障,在线支付平台与支付网络欺诈始终在进行着无休止的博弈.据<2016年国内银行卡盗刷大数据报告>不完全统计,运营商×××数量超过1.3亿张,网络诈骗"黑色产业"市场规模高达1100亿元,已成为中国第三大"黑色产

Maxent猛犸反欺诈入选Gartner 2018 Cool Vendors

"Maxent猛犸反欺诈SaaS服务结合被动式设备指纹和行为分析,有效提高欺诈检出能力. --Gartner" 2018年5月14日,全球知名的 IT 咨询及调研公司Gartner发布了2018年度数字颠覆与创新酷公司榜单(Cool Vendors in Digital Disruption and Innovation),Maxent猛犸反欺诈位列其中,并成为目前唯一一家人工智能反欺诈公司. 1 Maxent猛犸反欺诈的核心技术能力 Maxent猛犸反欺诈以多年积累的高性能流计算与无

无监督学习在反欺诈中的应用

一.反欺诈几种发展阶段: 1.黑名单,信誉库和指纹设备.这个很好理解,就是针对已有的出现过过信用的人进行标记,但是这种无法标记没有信用记录的人: 2.规则规律.这个根据一些好的信用的人一些特性,或者一些黑名单的人进行标记统计,总结出一些规则,然后通过规则去过滤避免一些风险: 3.有监督机器学习.有监督学习来做反欺诈,比较常见的就是做一个离群点检测 or 异常值检测,我们常用的离群点检测方式就是knn,这种方式去判断会造成一定量的误伤: 4.无监督机器学习.无监督机器学习应用最多的是聚类,聚类是根

数据分析-信用卡反欺诈模型

本文通过利用信用卡的历史交易数据进行机器学习,构建信用卡反欺诈预测模型,对客户信用卡盗刷进行预测 一.项目背景 对信用卡盗刷事情进行预测对于挽救客户.银行损失意义十分重大,此项目数据集来源于Kaggle,数据集包含由欧洲持卡人于2013年9月使用信用卡进行交的数据.此数据集显示两天内发生的交易,其中284,807笔交易中有492笔被盗刷.数据集非常不平衡,积极的类(被盗刷)占所有交易的0.172%.因判定信用卡持卡人信用卡是否会被盗刷为二分类问题,解决分类问题我们可以有逻辑回归.SVM.随机森林

小额贷款反欺诈及信用风控

反欺诈检验的,是客户借款用途是否为伪造,对应兑付意愿: 信用风险检测的,是符合该借款用途的客户能否满足产品的价格下限,对应的是兑付能力. 检验客户的兑付意愿和兑付能力,就是微观层面的风控. 兑付意愿包含两种情况:一种是伪造身份的第三方欺诈,多发于小额贷和现金贷等风控数据较薄弱的业务.第三方欺诈一般无法通过大额贷的审核,因为大额贷需要的数据量大,靠伪造身份通过审核的成本相对较高.进行贷款欺诈也是有成本的,现在小额贷领域欺诈横行的重要原因,就是小额贷风控薄弱,欺诈的成本很低,获利容易. 兑付意愿的另