宜人蜂巢技术点解读

YEP是致力于为中国金融科技行业提供信用评估、风险控制和精准获客的金融科技能力共享平台。

宜人贷借款已使用YEP的智能分发平台,为合作伙伴推荐更适合其产品的用户。

同时,YEP以宜人蜂巢为代表,从2017年开始为市场和行业赋能,以数据科学驱动风控。

宜人蜂巢旨在通过数据科学驱动互联网风控,让信用释放更多价值。宜人蜂巢提供基于独创的非结构化解析引擎Nestor打造的多维多端实时保真数据获取服务;结合大数据、机器学习技术构建的反欺诈服务;通过深度数据挖掘、特征化工程构建千余维度特征的用户信用报告。

宜人蜂巢于2013年由李善任先生(麦哥或Michael),在宜信宜人贷内部组建团队并成功孵化的项目。通过8大维度:金融、电商、社交、保险、社保、行为、位置等约20种数据源,千余维度特征,亿级关系网络等,帮助企业做出更明智的信贷决策,以扩大公平和透明信贷的可用性。目前查询量超过6000万次,体验用户超过3000万。通过宜人蜂巢科技平台的促成的放款额已突破1200亿;

宜人蜂巢持续技术创新和精进运营,创造极致用户体验,引领互联网风控技术发展。我们接下来从整体架构、数据获取、反欺诈三个方面介绍宜人蜂巢的技术体系。

一、整体架构

先来看一下蜂巢的整体技术架构:

宜人蜂巢结合了大数据和机器学习的最新技术,组成完善的技术矩阵,构建智能、高效、稳定和安全的数据服务和风控服务:

二、独创Nestor引擎 秒级保真数据获取

宜人蜂巢基于用户授权的数据获取服务,涵盖金融、电商、社交、保险、社保、行为、位置等8大维度,超过500个数据源站点。该业务场景的特点是:

1.         时间长,用户交互步骤多,页面下载和解析量大

2.         不稳定,500多个异构数据源,随时都有数据源维护、停服、响应慢等现象,不可控因素多

3.        反机器人技术愈发成熟,数据获取难度加大

宜人蜂巢独创了Nestor引擎,通过实时调度、精细化采集、可热部署升级、计算机视觉、无状态弹性伸缩等技术手段,做到了秒级保真数据获取,提供了极致用户体验,成为业内标杆。

1)         实时调度

Nestor把单个用户的单一数据源的授权获取视为一个任务,任务被设计为异步执行、消息驱动、无状态化的。Nestor将不同数据源的任务进行混编,通过独创的资源共享和调度技术,最大化资源利用率。

利用消息驱动,使用消息队列削峰填谷,将各数据获取过程解耦,上下文信息以消息体现,业务流程无状态。各业务线之间的消息传递均使用128位深度加密算法进行加密,最大程度上保证用户数据安全

Nestor是通过Zookeeper进行集群协调,调度节点多主热备,任务执行节点无状态化弹性伸缩,系统无间断稳定运行,吞吐量随需应变。

2)         可热部署升级

宜人蜂巢通过独创的受专利保护的Nestor模板技术,动态函数注入技术,把每个数据源的授权获取和解析逻辑写入标准的JSON文件,通过配置中心下发到任务执行服务器。任务执行服务器受消息驱动,根据最新的JSON配置执行数据的获取与解析。

通过发布JSON文件,无需代码的编译打包和重新部署,即可完成数据源升级,该技术使得代码量下降了60%,系统可用性达到99.9999%。

3)         智能代理

反机器人技术里最常见的一个手段是进行IP访问限制。蜂巢通过自建和外部合作等方式构建了强大的代理池网络,覆盖3大运营商,运行于多个公有云,满足HTTP/HTTPS、SOCK4、SOCK5代理类型,动态拨号,任何时刻拥有上千个可用IP,蜂巢的代理可用性达到99.9%。

宜人蜂巢对数据源的代理表现进行实时监控,对代理进行评级和打分,结合自适应学习和规则动态决定任务所使用的代理及重新测量。

4)         计算机视觉

宜人蜂巢采用OCR、卷积神经网络技术,对验证码高效失败,最小化用户输入和交互流程,大大缩短数据获取时间;通过计算机视觉技术高效精确识别图片化数据,提取成结构化数据,只要是用户可见的信息均可成功获取。

5)         精细化采集

宜人蜂巢对每一个数据源进行了精细化采集,对页面进行深度分析,消除冗余资源加载、合并数据请求、最少化请求数、最大化并发能力、无DOM化极速解析,确保数据获取和解析的极致性能。

6)         APP端采集

移动互联网飞速发展,越来越多的企业出于成本、用户体验等因素的考虑,只开发移动app,而放弃pc版站点,逐渐形成APP为主,PC站点为辅的布局形态,传统的基于网页的数据获取技术已经不能完全满足需要。蜂巢通过虚拟化技术,构建了大规模的虚拟Android集群,机型可以灵活配置,满足复杂多变的APP运行需求。宜人蜂巢组合Android界面自动化技术、HTTP/HTTPS代理技术、计算机视觉技术实现了APP数据无缝获取。

宜人蜂巢具备完整的PC、Web、APP三端数据获取技术,在用户授权提前下,可以实时保真获取到用户金融、电商、社交、保险、社保等5大维度数据。

三、多维交叉反欺诈

有金融的地方,有金钱的地方就一定会有欺诈发生。欺诈用户会通过虚构信用卡账单、虚假交易、团伙作案、多头借贷等手段进行信用造价,骗取贷款,贷出超过自身偿还能力的额度,给企业带来损失。宜人蜂巢运用大数据、机器学习、社交关系图谱、特征工程等技术,结合黑名单库和联盟数据进行多维交叉检测反欺诈,鉴别拦截率成功高达98%。

1)     账单反欺诈

基于海量用户邮件头信息,提取疑似欺诈特征,通过邮件路径追踪、黑白名单库对比、决策树模型等方法,辨别可疑邮件来源

运用统计建模、逻辑回归、SPF反查策略、文本挖掘分析、决策树等技术,对账单邮件内容进行深度分析,对欺诈账单进行特征挖掘,精确识别邮件内容篡改。

截止目前,拦截疑似欺诈账单超过1000万封,疑似欺诈用户80万,规避违约贷款50亿。

2)     欺诈团伙识别

基于宜人蜂巢8大维度的用户数据,构建构建用户社交关系图谱,分析用户与黑灰名单、欺诈团伙的碰触路径及黑灰度。通过关系图谱,可以挖掘出用户N度关系内逾期人数、放款人数、重复账单数、涉黑联系数,判别是否为欺诈团伙以及可疑程度。

宜人蜂巢社交关系图谱累计4000万+个节点,10亿+关系连接,有效识别触黑用户、欺诈团伙,并可以进行贷后失联修复。

3)     风险特征工程

宜人蜂巢通过特征对风险特征进行建模,对用户进行画像,通过随机森林等大数据挖掘和机器学习技术提高模型预测精度。依托流式处理平台,对数据源进行实时清洗、挖掘与计算,形成了包含电商、运营商、金融等强金融属性、千余维度千余维度的强金融属性风险因子。依据用户授权的网银、邮件账单数据进行深度挖掘分析,生成能反应用户信用历史、消费还款等行为的报告。依据用户授权的运营商数据进行深度挖掘分析,生成能反应用户社交习惯、异常记录等行为的报告。依据用户授权的电商数据进行深度挖掘分析,生成能反应用户网络消费习惯、购物喜好等行为的报告。

4)     多头借贷

客户从多个平台借贷,可能带来超出用户偿还能力的违约风险,宜人蜂巢利用丰富的数据维度,结合大数据和机器学习技术,有效识别用户是否存在多头借贷行为。利用大数据技术分析用户的交易记录和账单记录,寻找放款和还款特征;利用独创的检测技术检测用户关联属性是否在其它借贷平台有借贷行为,目前以覆盖40多家主流借贷平台;与业内公司联盟,共建多头借贷信息池;

5)     情报监控

欺诈团伙搜集不同平台的借贷条件、盯梢平台漏洞、伪造用户数据,进行有针对性的伪造信息,并在其网站、论坛和社交媒体进行传播。宜人蜂巢情报监控实时采集行业网站、论坛和社交媒体数据,结合流失计算和语义分析技术,截获欺诈营销情报,第一时间发现欺诈团伙,并进行针对性风险防控。

6)     黑灰名单库

宜人蜂巢利用宜信自有贷款的数据积累,结合合作伙伴数据,创建了包含手机号、×××、微信号、邮箱的黑/灰名单库,收录相关信息超过100万条。宜人蜂巢在行业内推大力动违约用户信息共享,蜂巢黑名单库日渐完善。

四、优势

宜人蜂巢能够持续赢得客户和合伙伙伴的肯定,是因为宜人蜂巢具备了四大核心优势:

1.   智能

构建信贷各环节信息的FinGraph,多维度特征交叉检测,联防监控,有效预防多头借贷,精准识别欺诈用户或团伙,从源头阻断风险行为,将欺诈行为的鉴别拦截率成功提高到98%以上,提升风控有效性。

2.   高效

利用独创的非结构化数据解析引擎Nestor,对多维多端授信源进行实时保真采集,结合先进的算法模型(计算机视觉、数据挖掘与机器学习等人工智能技术)形成精细化的数据整合应用,提升用户转化率。

3.   稳定

通过服务无状态化设计实现水平扩容,对依赖数据源、服务采用多链路多策略备份,结合全方位实时的系统、业务、数据源监控, 7*24小时运营支持,蜂巢服务可用性达到99.9999%。

4.   安全

采取三层防火墙、RSA加密技术、数据隔离、数据脱敏、分布式存储等安全技术,结合运营安全制度和策略,通过多重防御布控保障系统安全。

数据为信,信用生金。宜人蜂巢期待与行业伙伴们携手合作,共御风险,让信用释放更多价值。

原文地址:http://blog.51cto.com/honeycomb2017/2114461

时间: 2024-08-04 22:25:11

宜人蜂巢技术点解读的相关文章

iSCSI网络存储技术-实例解读

1 iSCSI介绍 网络存储服务器主要有三种解决方案--DAS直连存储,SAN区域网路存储 ,NAS网络附加存储,san和nas的主要区别在于,nas共享的是文件系统,san共享的是块设备. iSCSI是一种基于TCP/IP 的协议,用来建立和管理IP存储设备.主机和客户机等之间的相互连接,并创建存储区域网络(SAN).SAN 使得SCSI 协议应用于高速数据传输网络成为可能,这种传输以数据块级别(block-level)在多个数据存储网络间进行.SCSI 结构基于C/S模式,其通常应用环境是:

Cocos2d-x游戏开发技术精解读书摘要(2016-5-27 10:52)

 Cocos2d-x游戏开发技术精解 刘剑卓 著 2013年6月第1版 chap2 Cocos2d-x引擎的开发环境 2.1跨平台的开发 2.2建立开发环境 2.2.1 PC开发环境 2.2.2 Android开发环境 2.2.3 iOS开发环境 2.3引擎中的混合编译 2.3.1 Java与C++的混合编译 2.3.2 Objective-C与C++的混合编译 2.4引擎的起点 2.4.1应用程序入口 2.4.2引擎应用入口 2.5丰富的示例程序 2.5.1 TestCpp示例项目 2.5

小程序音视频能力技术负责人解读“小程序直播”

策划 / LiveVideoStack 责编 / 包研 一夜之间,"小程序+直播"成为多媒体开发者热议的话题.从底层技术实现到接口开放程度,是否绑定腾讯云?价格体系?低延迟性能如何?......一连串的问题背后是开发者乃至整个生态对"小程序+直播"的关注.LiveVideoStack邀请到小程序音视频能力的技术负责人常青,就开发者关注的各种问题进行了解答.如果您还有新的问题,请在在文末留言或邮件至[email protected]. 另外,我们还发起了针对"

4K超清,2500万人在线,猫晚直播技术全解读

2018天猫双11已经过去一周,各路快递也在快马加鞭送到大家手中.但对于剁手党而言,天猫双11也不仅仅是简单意义上的"买买买",更是一场边看边玩的狂欢盛宴. 作为双11的必备节目,今年的猫晚通过优酷.浙江卫视.东方卫视进行了全程网络直播和电视直播,吸引了超过全球超过2.4亿人收看.猫晚期间,优酷基于阿里云最新的广播级高可靠直播方案,为近2500万的观众带来了超高清.流畅的观看体验. 大家一定还记得今年俄罗斯世界杯期间,阿里云承包了全网70%的直播流量,其实,本次猫晚直播解决方案带来了全

商超行业微信小程序开发定制一般多少钱 (行业技术人员解读)

商超行业微信小程序开发多少钱?如果想要开发一个商超行业微信小程序大概得 需要多少钱呢?随着时代的发展小程序已经逐渐取代了很多传统APP的存在. 越来越多的品牌和企业个人都将小程序的开发作为首要目标,这也足以证明小程 序的优势是非常大的.那么下面我们就来说一说小程序开发大概需要多少钱. 一.模板开发模板开发具体步骤 模板小程序开发多少钱?首先在小程序开发之前必须搞清楚自己的需求,如果你 想要开发的小程序功能比较普遍,跟市面上的小程序基本相似,而且同样的商业 形态还很多的话,比方说网店.商城.分销系

小程序定制开发一般需要多少钱 (专业技术人员解读)

随着时代的发展越来越多的企业和个人都把小程序的开发作为首要目标,这也足以证 明小程序的优势是非常大的.一般常见的电商小程序.餐饮小程序.旅游小程序企业 展示小程序等,每种小程序都有它特定的功能.比如电商小程序需要点单.优惠活动 .预约.支付等等功能,那么你选择的小程序里是否有这些功能?所以在开发小程序 之前你必须想好需要哪些功能. 1.电商类小程序 不用多说,就是将商品图片价格上传到小程序上面,通过展示销售形成订单,获取收益.其中有卖母婴类产品的.零食类的.服装类的等等. 2.预定类小程序 比如

技术点解读 | aelf共识标准设计

区块链系统共识:去中心化的共识 本质上,区块链系统是一个分布式系统,但是与普遍的分布式系统不同.普遍的分布式系统,其意义在于:面对增长的业务量,用多台机器承载垂直拆分或水平拆分后的业务场景,增大系统容量:根据业务的关键程度,消除单点故障,加强系统可用性.当一个区块链系统承担的业务场景复杂如普遍的分布式系统时,当然也需要做如上的考虑.但是区块链系统之所以应当被人重视,是因为它能够解决存在作恶节点情况下的数据一致性的问题,也就是拜占庭将军问题.区块链世界中,不存在所谓的中心化服务器,其是由所有爱好者

aelf技术点解读 | AEDPoS合约实现逻辑

在aelf的共识合约标准中,其五个接口可以分为三组: 对于任何一个节点,可在任意时刻,从合约中请求共识命令: 得到有效出块时间的节点在调度器倒计时终结之后,从合约中获得共识数据,并基于此数据生产区块. 节点在将某个区块添加至本地区块链时,将区块信息提交给共识合约,以进行一系列针对共识数据的验证. 请求共识命令 - GetConsensusCommand这个方法的大致逻辑如下: public override ConsensusCommand GetConsensusCommand(BytesVa

从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)

从hadoop框架与MapReduce模式中谈海量数据处理 前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理. 由此,近期凡是空暇时,便在看"Hadoop","MapReduce""海量数据处理"这方面的论文.但在看论