反洗钱风控系统用户信息智能识别录入


发布日期:2022-12-12 09:46 信息来源:中心

反洗钱风控系统用户信息智能识别录入

北京百度网讯科技有限公司

一、背景介绍

反洗钱是金融行业监管体系中的重要一环,众多金融机构和公司都会选择使用反洗钱系统来量化和把控金融交易中的洗钱风险。某银行资管系统需将用户的开户资料全部录入反洗钱系统中进行审核和风控的。由于用户大多以图片、PDF、扫描文件等不可直接复制的方式上传信息(如身份证、营业执照、开户申请书、企业征信报告),人工录入只能靠逐字键入,过程繁琐、极易出错,因此往往不得不设二次核验专岗,以确保信息的准确性。针对以上问题,上海金仕达软件科技有限公司(以下简称:金仕达)基于百度飞桨深度学习平台专门研发出一套反洗钱风控系统,帮助用户信息智能识别录入,提高了金融企业审核效率,降低人员成本。

二、创新思路

(一)业务整体架构

图1 产品方案架构图

金仕达反洗钱风控系统用户信息智能识别录入,能提取出某银行资管用户数据集样本进行预处理,提高数据质量,将处理后的数据通过飞桨文

字识别套件PaddleOCR对原始文本进行快速和精准的识别,分别从识别出的页面文字和对关键字段进行匹配,从而准确定位到对应文档,并把对应字段自动填充到反洗钱系统中。

(二)系统功能与模块

金仕达算法团队通过百度飞桨深度学习技术,以“智”提“质”对信息录入时的复杂场景抽象出具体问题并进行任务求解,以下为金仕达通过深度学习算法的流程步骤和功能模块。

反洗钱系统的用户材料为PDF文件,可以先拆分为JPG图片,再进行页面分析,页面类型的判断主要基于页面的内容,可以采用关键字模糊匹配的方式区分页面。对任务抽象可以判定为典型的计算机视觉任务。因此,需要先使用OCR模型对文字内容进行检测和识别,再对文本和所在位置进行分析,求解该任务。

第一阶段:数据采集、标注和增强

由于反洗钱系统用户信息录入时,上传的附件文件包含了PDF、Word等多类格式文件,为了提升数据训练,需要预先对用户文档区域进行提取及校准。

图2 数据预处理

在对数据预处理过程中,部分文件版面存在小幅倾斜、部分文件页边距较大、营业执照图片横置等问题,因此结合PaddleOCR,通过DocEdgeNet文档预处理算法进行边缘检测、投影变换和图像质量增强得到精确质量的数据。

第二阶段:模型选择及调优

PaddleOCR提供了多种OCR模型,综合考虑模型的准确率、识别速度和部署便捷性,选择了在ch_ppocr_mobile_v2.0预训练模型基础上进行微调,得到了一个最能满足场景需求的识别模型,用于系统提供页面类型分析和字段识别功能。

图3 页面导航及信息抽取

文档图像预处理部分,使用了自研DocEdgeNet文档预处理算法,进行文档边缘检测,并基于检测结果进行投影变换和图像质量增强。

关键字提取阶段采用了基于AC自动机的关键字信息提取算法。

图4 关键字提取算法

第三阶段:模型训练及评估

由于PaddleOCR默认的训练方式就足以满足业务方案的需求,因此没有进行过多的修改和优化,只是需要将新增的训练数据转为PaddleOCR训练所要求的格式。并且使用了PPOCRLabel工具,对StyleText生成训练数据进行半自动标注。

此外,对于文档边缘检测模型,使用了PaddleSlim工具对DocEdgeNet进行通道剪枝及量化操作,将模型转化为轻量级推理模型,在原始精度下降1%的前提下压缩比达到90%,预测速度提升4.7倍。

图 5 轻量级推理模型

第四阶段:部署及上线

OCR模型和文档边缘检测模型分别训练完成后,转为推理模型,用于智能文档解析服务的调用。之后,利用Paddle Serving组件方便集成的特性,将智能文档解析功能快速部署为线上服务。用户通过web端访问反洗钱业务框架后台时,即可直接调用智能文档解析服务展示结果。

(三)案例特性与创新点

金融科技为金融风控数字化发展提供了技术保障。随着人工智能技术在金融风控领域内的使用,弥补了传统金融风控人工成本高、效率慢等问题。

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台,已覆盖自然语言处理、计算机视觉、推荐和语音等热门领域。多年来飞桨坚持技术创新,至今已经过多次迭代升级,拥有了“开发便捷的深度学习框架”“超大规模深度学习模型训练技术”“多端多平台部署的高性能推理引擎”“丰富的产业级开源模型库”4大领先技术。

百度飞桨企业版针对企业级需求增强了相应特性,包括零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。PaddleOCR提供多场景、多语种、高精度的文字检测与识别服务,广泛适用于远程身份认证、财税报销、文档电子化等场景,为企业降本增效。

金仕达基于百度飞桨深度学习平台实现了反洗钱风控系统用户信息智能识别录入,解决了传统金融风控系统信息录入中材料版面多样性、信息提取规则复杂、处理时效要求高等场景问题。简化了银行用户资料电子化录入流程,提高用户信息录入效率,并且减少了银行资管系统人工操作产生的错误,为银行资管系统提供高效合规的新型智能化信息录入方式。

(四)技术优势和指标

金融企业用户信息通过智能信息录入系统,文档页面导航上识别准确率达到99%,在信息抽取上准确率达到95%,在反洗钱系统信息录入和审核环节中节省用户80%以上的时间。对于70页的文档,只需2分钟即可完成整体过程,极大提升了某银行资管系统的核验效率。

三、取得成效

百度飞桨帮助金仕达加速在金融行业反洗钱系统用户信息录入的智能化转型。金仕达基于百度飞桨深度学习平台为某银行研发出了一套智能化用户信息录入系统,使用该系统录入信息时,提供智能导航和自动录入功能,简化了流程、降低了信息录入及核验的人工成本。

四、经验启示

作为领先的人工智能公司,近年来百度不断发挥大企业的担当和责任,推出了飞桨深度学习平台促进融通创新发展。飞桨是自主研发、功能丰富、开源开放的产业级深度学习平台,能够帮助企业开发者迅速上线人工智能,也推动不同行业实现产业智能化升级。

中小微企业数量众多、紧贴市场,是最具活力的创新单元,但创新能力还需进一步激活。为了将创新的供给和需求有效匹配,百度通过对人工智能技术的开源开放为中小企业提供支持,助力不同企业创新发展。基于飞桨深度学习平台,百度为中小企业提供全面、领先、简单、易用的AI能力和工具,为其降低技术开发门槛,使其更加专注于自身业务。截止目前,飞桨已凝聚超370万开发者,服务企业超14万家,创建超42.5万个模型,被广泛应用于互联网、工业、农业、金融、城市、医疗、能源、教育等诸多行业,帮助越来越多的行业完成AI赋能,实现产业智能化升级。