【ArchSummit干货分享】个推大数据金融风控算法实践

作者:个推高级数据工程师 晓骏

众所周知,金融是数据化程度最高的行业之一,也是人工智能和大数据技术重要的应用领域。随着大数据收集、存储、分析和模型技术日益成熟,大数据技术逐渐应用到金融风控的各个环节。个推作为专业的数据智能服务商,拥有海量数据资源,在智慧金融领域也推出了相应的数据解决方案-个真,为金融客户提供智能反欺诈、多维信贷风险评估和高意愿用户智能筛选等全流程的数据服务,助力各金融机构全面提升风控能力。本文将围绕大数据风控,结合个推实践,介绍金融风控机器学习的基本流程、算法实践和产品化建设等内容。



风控流程 & 多维度特征

大数据风控的内容
数据是风控的核心要素,大数据风控实际上就是对数据的处理、建模和应用的过程。大数据风控的流程主要分为四个阶段:数据获取、数据分析、数据建模、风控产品应用。对获取到的海量数据进行清洗和挖掘,有针对性地对金融特征进行深加工;接着通过规则策略和模型算法的构建,对外输出相应的风控服务。

个推以消息推送服务起家,为数十万APP提供高效稳定的推送服务,并沉淀了丰富的数据资源,覆盖超过40亿终端设备,数据全面、广泛且有深度。利用设备基础信息、线上APP偏好数据、线下场景数据以及外部补充数据,个推构建了8个维度、350+特征,同时对特征进行动态更新。基本属性、资产、金融、行为偏好、社会属性、消费偏好、风险和稳定性构成了个推金融数据的八大维度;个推利用数据的八大维度,逾350种特征进行模型构建,并将其应用于金融风控各环节。

金融风控机器学习的基本流程
整个风控建模流程,在个推大数据平台上完成。首先,对持续更新的海量一手数据进行收集、清洗、存储,在数据存储前进行ID打通;第二步,对清洗好的原数据进行特征构建;最后,利用多维度特征进行金融风控模型构建,用到的技术包括协同推荐算法、LR算法、XGBoost、营销模型、多头模型和信用分模型等。


建模流程

如何高效构建特征,是风控建模中一个至关重要的问题。在实践中,个推会对特征进行稳定性分析、脏数据/异常数据处理、特征分箱、特征聚合和特征有效性验证。特征评估指标则包括IV值、Gain值、单调性、稳定性和饱和度等。

风控场景机器学习的算法实践
利用上述多维度特征和建模能力,增能于贷前、贷中和贷后全流程:拉、选、评、管、催五大环节。

全流程数据增能

拉-营销模型,甄别虚假注册,评估借贷意愿

在拉新获客阶段,个推制定贴合大额、小额两种营销场景需求的营销模型,通过规则策略、模型策略、风控策略三管齐下,帮助客户识别“真人”,有效降低获客成本、提升注册率和转化率。客户可通过提供样本数据,通过个推来完成建模,同时,在缺乏样本数据的情况下,个推依托自身积累的海量样本数据,可以构建出多种营销场景下的通用模型,供客户使用。

选-贷前的审核,识别欺诈人群,防范恶意骗贷

贷前审核阶段我们通常采取两个策略:欺诈分模型、风险人群筛选。欺诈分模型指的是根据客户提供的数据信息在个推平台进行数据转换、特征匹配,并对其风险特征予以筛选,利用预设规则予以打分,最后得出相应的欺诈分。个推在逾350种特征中识别出数几十种风险特征。举例来说,当某用户安装小贷类APP达到多款以上,或线下到访场景异常,或该用户命中黑名单都会被识别为风险特征。根据欺诈分的高低予以排序,为客户列出不准入人员、需重点关注人员等。

风险人群筛选指的是根据用户存在的风险特征数量及程度,梳理出风险人员。个推利用筛选出的8种维度、350+特征,通过模型预测和规则制定,输出三类风险人群:黑名单、灰名单、多头名单。多头名单顾名思义,当某用户频繁安装或卸载多款借贷类APP时则会被模型系统判定为多头人员;灰名单指的是稳定性较差的人员,黑名单指的是异常人员。在贷前审核阶段,黑名单人员可直接不予以准入,灰名单和多头人员则需要重点关注。

评-信用分模型,贷前信用评估,辅助贷款定额

在评的阶段,个推采用信用分模型,为客户输出用户的信用评分。信用评分由五种维度构建而成:资产、身份、稳定性、关系、行为。个推信用评分模型先根据模型训练与规则模型,得到各个维度分,再将五个维度的个人评分作为特征输入模型,作为特征得到总体个人信用分。

信用分模型由多个模型整合而成,第一层是分类模型(lr+xgboost),得到分值;第二层在维度分的基础上再进行回归,得到最终信用评分。

管-贷中管控,监测异常特征,实现风险预警

在管的环节,个推采用贷中监测模型。从整体人群筛选出逾期相似(相关)人群,结合实时数据与高危特征异常监测得到高疑用户,结合客户的实际需求,对此类用户通过进一步的精准研判得到逾期风险人员,将此类人员告知客户,让其予以重点关注或排查。

催-贷后催管,催回价值评估,提高催回效率

在催的环节,个推基于自身构建的催回评分系统,可以有效指导金融机构制定差异化催管策略,助力更高效地完成催收工作。比如,当客户出现逾期和坏账时,金融机构通过个推的催回评分,对用户的还款能力和还款意愿进行评估,从而判断哪些用户优先催。

风控系统产品化
前面几个流程主要讲的是个推利用多维度特征自主构建风控模型,但在很多业务场景客户希望快速构建特征、快速返回风控结果。为此,我们研发上线个真决策引擎,在规则设计层为客户提供风控规则,让业务人员在规则执行层通过规则性加工进行灵活操作,目前已提供给部分客户试用。


风控决策引擎

如今,科技与金融深度交融的时代已经到来,金融风险控制任重而道远,。个推将持续挖掘其丰富的数据资产,不断打磨自身技术,助力金融行业运作效率和服务能力的全面提升。

(本文所有图片均来源于个推)

更多技术干货,请关注公众号:个推技术学院。

原文地址:https://blog.51cto.com/13031991/2424378

时间: 2024-11-05 21:41:37

【ArchSummit干货分享】个推大数据金融风控算法实践的相关文章

BDFF 2017大数据金融论坛8月23-24日上海举行!

大数据金融论坛BDFF2017 BIG DATA FINANCE FORUM 2017|Shanghai·8.23-24 活动主题 塑造数据生态·引领金融科技·聚焦数据未来 Shape Data Ecology·Lead Fintech·Focus on Data Future 活动日期.地点 2017年8月23-24日 上海 2017.08.23-24 Shanghai 活动规模.性质 覆盖专业人群400+crowd 400+论坛&开放&非盈利Forum&Open&Non

大数据金融数据分析GBDT模型、神经网络模型、违约预测模型视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

基于大数据技术推荐系统算法案例实战视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

大数据丨分享16个大数据技术

Java编程技术 Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序.Web应用程序.分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,因此,想学好大数据,掌握Java基础是必不可少的! 2.Linux命令 对于大数据开发通常是在Linux环境下进行的,相比Linux操作系统,Windows操作系统是封闭的操作系统,开源的大数据软件很受限制,因此,想从事大数据开发相关工作,还需掌握Linux基础操作命令. Hadoop** 在

分享《白话大数据与机器学习》PDF+《图解机器学习》PDF

下载:https://pan.baidu.com/s/1Ut4iePZzQjBw7WANBNfLnQ 更多资料分享:http://blog.51cto.com/3215120 <白话大数据与机器学习>PDF+<图解机器学习>PDF<白话大数据与机器学习>PDF,345页,带目录和书签<图解机器学习>PDF,242页,带目录和书签如图所示: 原文地址:http://blog.51cto.com/3215120/2313180

数澜天湛分享:地产大数据下一站——数据中台

从 IT 时代到 DT 时代,每个企业无一不被「大数据」.「数字化转型」这样陌生又熟悉的词汇环绕着.似乎一夜之间,这条通往未来的数据之路旁早已挤满了拿着车票却不知该如何上车的企业主们,特别是一些传统行业的巨头们,更是早早挤在了队伍的前头. 他们往往凭借着多年的深耕和积累,积累了海量的.价值难以衡量的数据,在传统行业增量市场急剧减少的今天,这些数据如何指导企业对已有的存量市场进行更加精细化运营,则成为了他们所最为关心的话题. 近日,在深圳举办的一场地产行业 CIO 春季峰会中,数澜科技合伙人兼 C

大数据开发经验分享:学习大数据开发的方法

学习新的知识,最重要的就是学习方法,有一个好的学习方法会起到事半功倍的效果.学习大数据开发的方法有哪些? 一.学会爱数据数据科学是一个广泛而模糊的领域,这使得它很难学习.没有动力,你最终会中途停止对自己失去信心.你需要些东西来激励你不断学习,即使是在半夜公式已经开始变的模糊,你还是想探究关于神经网络的意义.对于小白学习大数据需要注意的点有很多,但无论如何,既然你选择了进入大数据行业,那么便只顾风雨兼程.正所谓不忘初心.方得始终,学习大数据你最需要的还是一颗持之以恒的心. 二.在实践中学习学习神经

推荐文章:机器学习:“一文读懂机器学习,大数据/自然语言处理/算法全有了

PS:文章主要转载自CSDN大神"黑夜路人"的文章:          http://blog.csdn.NET/heiyeshuwu/article/details/43483655      本文主要对机器学习进行科普,包括机器学习的定义.范围.方法,包括机器学习的研究领域:模式识别.计算机视觉.语音识别.自然语言处理.统计学习和数据挖掘.这是一篇非常好的文章,尤其感学原文作者~          http://www.thebigdata.cn/JieJueFangAn/1308

一文读懂机器学习,大数据/自然语言处理/算法全有了……

原文地址 http://www.open-open.com/lib/view/open1420615208000.html http://www.cnblogs.com/subconscious/p/4107357.html 引论 在本篇文章中,我将对机器学习做个概要的介绍.本文的目的是能让即便全然不了解机器学习的人也能了解机器学习.而且上手相关的实践.这篇文档也算是 EasyPR开发的番外篇.从这里開始.必须对机器学习了解才干进一步介绍EasyPR的内核.当然,本文也面对一般读者.不会对阅读有