信用卡账单采集解析系统设计

宜信公司创建于2006年,总部位于北京,是一家集普惠金融、财富管理和金融科技等业务于一体的综合性现代服务业企业。宜人贷是中国领先的在线金融服务平台,由宜信公司2012年推出。2015年12月18日,宜人贷 (NYSE: YRD)在美国纽交所成功上市,成为中国互联网金融海外上市第一股。

YEP(Yirendai Enabling Platform)是致力于为中国金融科技行业提供信用评估、风险控制和精准获客的金融科技能力共享平台。宜人贷借款已使用YEP的智能分发平台,为合作伙伴推荐更适合其产品的用户。

宜人蜂巢是数据科学驱动的互联网风控科技平台;通过科技与大数据预测借款人的信用、偿还能力;并实别欺诈、助力贷中贷后风险管理等;从而将公平的信用扩展到更多的人。宜人蜂巢于2013年由李善任先生在宜信宜人贷内部组建团队并成功孵化的项目,通过8大维度:金融、电商、社交、保险、社保、行为、位置等约20种数据源,千余维度特征,亿级关系网络等,帮助企业做出更明智的信贷决策,以扩大公平和透明信贷的可用性。

目前查询量超过6000万次,体验用户超过3000万。通过宜人蜂巢科技平台的促成的放款额已突破1200亿;同时,YEP以宜人蜂巢为代表,从2017年开始为市场和行业赋能,已有诸多来自银行、持牌消金、慈善等行业的百家以上的优秀企业纷纷接入宜人蜂巢的服务;宜人蜂巢正在将自身最引领科技能力赋予行业生态,助力普惠金融业态健康和谐发展!

一.          简介

传统的信用审批流程需要申请人填写大量的申请资料,再由工作人员手工录入申请人的信息到系统里才开始信审,随着大数据金融的发展,建立了这套账单采集解析系统(以下简称:MFA)。在申请人授权之后,MFA对客户邮箱中的信用卡账单数据进行实时采集解析,提取客户的信用卡额度、消费、还款等信息,形成结构化的输出数据,作为客户信用审批的依据,大大降低信审的成本,提高了信审效率。

MFA目前支持对11种邮箱进行采集,44家银行的信用卡账单进行解析。

一个完整的采集解析流程如下:

用户在授权采集信用卡账单之前,要先确认自己的邮箱中是否包含有效的信用卡账单。

接收用户授权信息:MFA接收用户邮箱的登录信息,包括用户名、密码等。

登录邮箱并采集账单邮件:MFA使用用户邮箱的登录信息进行模拟登录,通过邮件过滤器的筛选,采集到信用卡账单邮件。

账单反欺诈:通过反欺诈引擎,实时甄别虚假账单和非一手账单。

解析账单:对账单内容进行解析,整理成可输出的结构化数据。

二.          账单采集

账单邮件的采集支持两种方式:POP3协议和WEB页面,通过邮件过滤器的筛选只采集信用卡账单邮件。采集流程如下:

选择采集器:不同的邮箱种类对应不同的采集器,MFA通过邮箱账号自动匹配相应的采集器。

POP3方式登录/采集:通过邮箱POP3协议进行登录与采集。

过滤邮件:邮件过滤器可以过滤掉不符合条件的邮件,例如非信用卡账单邮件、过期账单邮件等。邮件过滤器可以进行灵活配置,目前过滤准确度可以到达99%。

WEB方式登录/采集:如果通过POP3的方式采集失败,则通过邮箱WEB页面进行登录与采集。

2.1 某Q邮箱登录

某Q邮箱WEB登录目前需要进行滑块验证码的验证,MFA通过对滑块验证码前端JS代码进行反混淆、解密、模拟移动轨迹等,突破了滑块验证码的验证规则,提高了模拟登录的成功率。下图是该邮箱页面滑块验证码的加密参数示例:

2.2 某易邮箱登录

某易邮箱WEB页面登录采用网易易盾验证,MFA通过对易盾验证图片二次整合、中文坐标识别、鼠标移动轨迹加密等方式,突破了易盾验证规则,提高了模拟登录的成功率。下图是该邮箱登录页面易盾验证示例:

三.          信用卡账单反欺诈

信用卡账单反欺诈是通过账单反欺诈引擎对邮件进行实时甄别。该引擎综合运用数据分析与挖掘、计算机视觉和机器学习等人工智能技术,分别通过对邮件头前端拦截甄鉴与邮件内容深度挖掘提炼出数百维度的账单行为特征,通过邮件发送路径反向追踪、 黑白名单筛选、欺诈规则引擎决策输出等,实时甄别虚假账单和非一手账单。

3.1 SPF

SPF(Sender Policy Framework),发信者策略架构,是为了防范垃圾邮件而提出来的一种DNS记录类型,它是一种TXT类型的记录,用于登记某个域名拥有的用来外发邮件的所有IP地址。它向收信者表明,哪些邮件服务器是经过某个域名认可会发送邮件的。账单反欺诈引擎通过SPF技术识别邮件的发送者是否是可信的。

假设邮件服务器收到了一封邮件,来自主机的 IP 是173.194.72.103,并且声称发件人为[email protected]。为了确认发件人不是伪造的,邮件服务器会去查询example.com的 SPF 记录。如果该域的 SPF 记录设置允许 IP 为173.194.72.103的主机发送邮件,则服务器就认为这封邮件是合法的,如果不允许,则通常会退信,或将其标记为垃圾/仿冒邮件。

3.2 特征分析

分为邮件行为特征分析与账单特征分析,通过对3000GB数据量进行分析,提炼出 44家银行,约2700个行为样本,以这些样本为参照,可以快速识别邮件中的异常行为;通过对上千种账单内容分析,提炼出一套通用的金额计算规则,维度包括卡号、金额、持卡人等,利用这套规则可以从账单内容上识别欺诈行为。下图为识别出的虚假重复账单:

3.3 机器学习

选取占比较大的邮箱和银行账单数据作为样本,通过大数据技术分析历史数据,提炼出十几种特征,并将特征值标准化处理,通过ID3算法构造出决策树,利用决策树对账单进行分类,达到账单反欺诈甄别的目的。

●       ID3算法

通过计算每个属性的信息增益,认为信息增益高的是欺诈账单属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树。算法示意图:

四.          账单解析

为应对繁多的银行信用卡账单样式,解析功能是根据账单模板进行解析,每个账单模板对应一种账单样式。当银行信用卡账单样式发生变化时,需要对账单模板进行更新,以保证解析结果的正确性。目前系统中已包含将近500个模板,已完全覆盖所支持的44家银行的信用卡账单样式。目前只对详版账单(包含交易记录)进行解析,不对简版账单进行解析。

解析流程如下:

接收账单原文数据:信用卡账单原文数据是指银行发送到客户邮箱的信用卡账单,或网上银行的信用卡账单页面。数据格式必须为HTML,目前不支持其它格式的账单数据。账单原文数据示例:

简化原文数据:对账单原文数据进行过滤和去噪的过程,包括去除HTML标签、去除广告图片等。简化后的账单数据示例:

判断是否需要解析:在进行正式解析之前,根据账单内容中的关键字信息判断是否需要进行解析,例如:建设银行账单中若不包含“最低还款额”,则不进行解析,因为在建设银行账单中不包含“最低还款额”的账单属于简版账单或没有有效金融信息的账单。

遍历解析模板并进行匹配:遍历账单所属银行下面的所有模板,使用这些模板对账单进行解析,根据解析内容的完整性对每个模板进行打分,分值越高表示模板的匹配程度越高。最后,会将分值最高的模板的解析结果返回。

五.          解析结果

解析后的结构化数据包含两部分:账单详情和交易明细,具体字段及描述如下表:

账单详情:


字段


描述


billBaseInfoId


账单ID。账单唯一识别码。


currencyCode


币种编码,目前只支持解析人民币:RMB。


newBalanceAmount


本期应还款总额


billDate


账单日


cashLimit


取现额度


creditLimit


信用额度


balanceBF


上期账单金额(上期应还款金额)


newCharges


本期账单金额(本期新增消费金额)


cardNo


卡号(末四位)


minPayment


本期最低还款额


adjustment


本期调整金额


interest


循环利息


paymentDueDate


到期还款日


cardholder


持卡人


paymenBF


上期还款金额


bankCode


银行编码


isOriginal


是否一手账单, 0:不是,1:是,2转发。该字段是账单反欺诈引擎的判定结果。

 

交易明细:


字段


描述


id


交易明细ID。交易明细唯一识别码。


amount


结算金额


cardNo


卡号


billBaseInfoId


账单ID。账单唯一识别码,每个账单对应多条交易明细。


currencyCode


币种编码,目前只支持解析人民币:RMB。


description


交易摘要


transactionDate


交易日


postDate


记账日


bankCode


银行编码


billDetailCategoryId


交易分类ID


periodNo


分期当前期数


periodTotal


分期总期数

 

原文地址:http://blog.51cto.com/honeycomb2017/2116554

时间: 2024-10-08 10:01:16

信用卡账单采集解析系统设计的相关文章

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档

基于Nutch&Solr定向采集解析和索引搜索的整合技术指南文档 内容来源于开源项目: http://git.oschina.net/xautlx/nutch-ajax https://github.com/xautlx/nutch-ajax 如何阅读本文档 本教程文档原始基于Markdown编写,如果你熟悉Markdown文件及相关工具使用,可以直接通过Markdown阅读或编辑工具查看本教程.md格式文件. 由于Markdown语法暂时没有目录支持,如果希望以目录导航方式查看文档,可参考如下

alex教学视频--信用卡账单

额度15000 可以提现,手续费%5 每月最后一天出账单(每月30天),写入文件 记录日常消费流水(交易日,交易摘要,金额) 提供还款接口 主程序 bill_main_models.py #coding:UTF-8 import sys import datetime import time def withdraw_mode(limit):     f_file = 'bill_detail.txt'     try:         num = int(raw_input('Please i

[转]Android中直播视频技术探究之---摄像头Camera视频源数据采集解析

http://blog.csdn.net/jiangwei0910410003/article/details/52057543 一.前言 在视频直播中一般都是两种视频数据源,一个是摄像头数据,一个是录制桌面数据,而一般来说美女妹子直播都是来自于摄像头数据,游戏直播都是录制桌面数据的,那么今天就来看看第一个数据源数据采集分析,Android中使用摄像头的场景很多,在没有直播这个行业出现之前,之前用到摄像头的最多就两个场景,一个是二维码扫描,一个是美颜拍照类的应用.那么这里就来看看Android中

HTML、XML 等 Dom 结点类解析库Jsoup

Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据. 特点: HTML.XML.自定义DOM格式文本解析: 可操作HTML元素.属性.文本: 适用于采集解析网站HTML: DOM解析功能强大. 开源库jsoup-1.8.1.jar,基本用法: 1 package com.zhang.jsoupdemo; 2 3 import android.os.Enviro

python3 实现简单信用卡管理程序

1.程序执行代码: #Author by Andy #_*_ coding:utf-8 _*_ import os,sys,time Base_dir=os.path.dirname(os.path.dirname(os.path.abspath(__file__))) sys.path.append(Base_dir) str="欢迎使用银行信用卡自助服务系统!\n" for i in str: sys.stdout.write(i) sys.stdout.flush() time.

指付通盗刷信用卡维权连载--9月4日维权纪实

事件背景:指付通本来是一种支付手段的创新,通过关联用户的指纹和信用卡,之后可以通过指纹方式进行直接验证支付.但是2014年9月1日中午发生的点佰趣公司盗刷每个用户100元年费的事情,立即引起的渲染大波.据称受影响用户达到5000人之众,相关的维权为此立即拉开帷幕. 事件发生70小时内的成果:1) 35小时新闻夜线播出:2) 55小时他们发布公告(虽然公告我们不满意):3) 70小时内新闻晨报报道.革命尚未成功,大家仍需努力!不放弃,不自欺,继续向我们目标执着前行. 维权宗旨: 我们理性维权,是想

支付宝不支持qq邮箱获取账单

年初的时候支付宝获取QQ账单都能获取到,到今年的5.6月份获取不到QQ邮箱账单,如下: 上次拨打支付宝客服,人家让我换邮箱,给我介绍阿里邮箱,当时我就笑了,这是信用卡账单,就因为一个账单而去注册一个新的邮箱,因为QQ是大家最常用的聊天工具与邮箱,这样不支持QQ获取账单,我的邮箱也有不少,最常用的还是QQ邮箱,基本天天在用,如果一个服务商去改变用户习惯,用户会放弃这个产品,因为产品不符合用户习惯就不是好的产品,支付宝不能支持QQ邮箱获取账单,同时放弃一切和支付宝相关的商品购买,因为这个产品不符合用

央行叫停P2P信用卡充值

竣付通-中国最专业的在线支付平台,支持充值卡,游戏点卡,网银等支付,让你随时随地享受在线支付的快乐!详细请加Q:2990968116 曾经为P2P平台带来流量.为投资人强化投资杠杆.为第三方支付抢占市场立下汗马功劳的信用卡投资,如今几乎在所有P2P平台上成为历史.<第一财经日报>记者多方了解到,竣付通作为P2P平台资金流入通道的第三方支付在春节前后收到央行的“一口禁令”,目前已经暂停信用卡充值业务.一位业内人士表示,这一禁令的背后,一方面可以看出行业嫁接信用卡累积的风险已经达到一定程度;而另一

信用卡“代还平台”和智能还款APP哪个更安全

说起信用卡"代还平台",经理:幺四个三-八三零九七七很多用户也是因为透支额度还不上才循此下策,通过和代还平台确认代还协议,缴纳一部分服务费来解决本期账单问题.但对于此种还款的做法的负面影响,普通持卡用户往往不清楚其问道.今天闪付时代小编就来科普一下代还平台三种代还模式.一."套现贷"模式代还平台利用信用卡账单日和还款日的时差(账单日之后的消费全部为下一期账单还款金额,还款日之前的存款都算本期还款),用户只需要在信用卡中存入少量资金,代还平台循环刷取资金返给用户,从而