技术人生系列——新趋势:图技术赋能贷款资金流向追踪
日期:2020-05-18
人民银行开出“天价”罚单
今年年初,某银行因为被人行开出超两千万元的“天价”罚单上了热搜而被广泛讨论。它被处罚的主要原因为未对客户进行尽调,并涉及房地产资金运作行为违法违规。
事实上,人行对资金流入房地产的严管已经持续多年,仅过去两年就有4家银行及金融机构因为涉及相关问题而被处以千万元的罚款。
种种事实都在释放着这样的信息:资金追溯是每一家银行和金融机构都必须去面对和解决的问题。
本期技术人生,我们就来解析一下这种新趋势:图技术赋能贷款资金流向追踪。
海量资金流水数据,传统方法难以追踪
传统的关系型数据库以表格的方式储存和呈现数据,十分抽象。
银行流水示意
银行每月交易流水都达百万到百亿的数量级。使用传统的查询方法在茫茫数据中搜寻蛛丝马迹,不仅耗时耗力,最终结果也未必理想,这成为了许多银行等金融机构开展资金追踪的障碍。
图技术+规则:追踪资金流向新思路
1、简单直观的图数据库
而图分析则能很好地解决数据不直观、难以追踪的问题。假设在关系型数据库中有下表所示的一段交易流水:
序号 |
…… |
转出方 |
收入方 |
金额(RMB) |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
XXXX |
…… |
公司A |
公司a |
2,000,000.00 |
…… |
XXXX |
…… |
公司A |
公司b |
3,000,000.00 |
…… |
XXXX |
…… |
公司A |
公司c |
3,000,000.00 |
…… |
XXXX |
…… |
公司a |
公司B |
1,980,000.00 |
…… |
XXXX |
…… |
公司b |
公司B |
2,960,000.00 |
…… |
XXXX |
…… |
公司c |
公司B |
2,980,000.00 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
关系型数据库存储数据示意
这些数据在图分析中,将有完全不同的存储方式。
以TigerGraph图分析为例:将交易过程中的每一个实体(银行或公司)作为节点、每一条交易流水作为两点之间的一条边,我们便能构建一张包含所有交易数据的关联图,其中的数据将被存储在图数据库中。
图数据库存储数据示意
可以看到数据中的“公司A”、“公司B”都从三条数据合并为了一个节点,转账行为成为了带数据的有向边,利用点边关系即可清晰地描述实体间的交易行为。
并且通过构建图,我们发现公司A转出的金额和公司B收入的金额接近,有助于业务人员对两公司之间的交易行为进行进一步甄别和判断,而这在传统的关系型数据库中是很难直接看出的。
人脑天生就对图更加敏感。以图的形式进行数据存储,构建实体之间的关联关系,这样的方法符合人类认知数据的直觉。
2、基于图的资金流向追踪
我们利用TigerGraph图技术,构建知识图谱(以图的形式存储)并设置业务规则以进行资金流向查询和追踪。
存储实体和交易数据的图分析示意
假设根据业务人员的经验,如果申请贷款的公司在贷款发放后的短时间内(例如3天内)就将款项大部分(例如80%以上)转出公司,那么这家公司极有可能将款项用于购买房产:
采用图技术,我们可以将以上这项特征总结为一条规则,将它编写为查询:
在全景知识图谱上设置查询条件:1、发放贷款与转出交易的时间差为3天内;2、转出的金额总额大于等于贷款发放金额的80%。编写代码后在知识图谱上运行,就能输出我们想要的结果。
3、基于图的优势
相比基于关系型数据库的查询,TigerGraph图查询的条件设置直观且简便,无论从图形上还是业务逻辑上,都有较强的可解释性。
关系型数据库目前尚无法解决数据不足的问题。而利用图技术,即使是在数据量不足的情况下,我们也能将业务人员的经验总结为更多的规则,编写多种查询,使查询输出的结果具有更高的覆盖度,有利于业务人员进行资金的追踪和监控。
图技术在各场景中的应用探索
除了追踪资金流向,图还能有效地搜索链路、回路等结构,对反金融欺诈场景的业务应用具有天然的优势。在发现洗钱链路、套现团伙等场景中,图都有出色的表现。
发现洗钱资金回路示意
在信用卡的套现侦测案例中,我们采取多部图及高密子图侦测等方法,基于百万级的数据量进行查询代码的运行。相比传统查询方法,图技术将代码运行时间从2-3周缩短为1小时,输出结果覆盖的黑样本从总量的58%提高到77%,运行效率和结果覆盖率都有显著提升。
近些年,我们在基于图的算法研发和深度学习挖掘方面做了诸多探索,它们能够发现一些人工无法归纳的特征和结构。结合业务人员的经验,从而得出更多有用的结论。
我们还将持续推出图技术在各类应用场景中的深度解析,欢迎持续关注!