[发明专利]一种基于流式计算的实时反欺诈数据处理方法及系统在审
申请号: | 202110333981.1 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112862009A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 胡奎政 | 申请(专利权)人: | 中信银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06;G06Q40/04 |
代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 于越;张峰 |
地址: | 100020 北京市朝阳区光*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 计算 实时 欺诈 数据处理 方法 系统 | ||
本发明涉及一种基于流式计算的实时反欺诈数据处理方法及系统,包括获取实时交易数据;解析实时交易数据合法性和有效性;根据实时交易数据查询关联的离线特征数据;根据离线特征数据将实时交易数据转化为对应不同特征以及特征下不同维度的多条输入数据;汇总输入数据形成实时预测特征输入集;将实时预测特征输入集输入预先训练完成的反欺诈预测模型得到反欺诈评分。对接常见数据源例如kafka,通过流式计算方式处理交易数据并高效的生成用于反欺诈判断的特征集,可以实现对于高并发、大规模的实时交易数据进行低延时的反欺诈识别操作。
技术领域
本发明涉及技术领域,尤其涉及一种基于流式计算的实时反欺诈数据处理方法及系统。
背景技术
随着互联网、移动互联网和物联网的广泛而深入地应用,人类正式迈入大数据时代,针对复杂、多样的网络环境,从大规模、高并发、多维度的数据中快速预防或者识别可能存在的欺诈交易行为至关重要,在大数据技术的浪潮中,出现了很多优秀的产品和方案,其中较具影响力的有spark streaming,storm,但这些产品的特性本质还是微批的操作,无法满足低延时、高并发、大规模的实时反欺诈业务场景。
具体的,现有技术中已经能够通过海量数据处理结合实际经验获得较为可靠的反欺诈预测模型,将处理后的交易信息数据输入反欺诈预测模型能够分析获得较高精确度的欺诈交易识别结果,但这种分析结果往往是交易完全结束之后才能进行的后续补充甄别操作,只能用于发现已经产生的欺诈交易行为并尽力弥补欺诈交易造成的影响,不能实现实时的反欺诈业务需求或做到对欺诈业务的预防;同时,当系统需要同时面对大量并发交易请求时,现有的反欺诈识别系统普遍使用的数据处理方法也不能提供相匹配的处理效率。
发明内容
为解决现有技术的不足,本发明提出一种基于流式计算的实时反欺诈数据处理方法及系统,对接常见数据源例如kafka,通过流式计算方式处理交易数据并高效的生成用于反欺诈判断的特征集,可以实现对于高并发、大规模的实时交易数据进行低延时的反欺诈识别操作。
为实现以上目的,本发明所采用的技术方案包括:
一种基于流式计算的实时反欺诈数据处理方法,其特征在于,包括:
获取实时交易数据;
解析实时交易数据合法性和有效性;
根据实时交易数据查询关联的离线特征数据;
根据离线特征数据将实时交易数据转换为对应不同特征以及特征下不同维度的多条输入数据;
汇总输入数据形成实时预测特征输入集;
将实时预测特征输入集输入预先训练完成的反欺诈预测模型得到反欺诈评分。
进一步地,所述获取实时交易数据包括以预设窗口时间将实时交易数据切分,生成格式化实时交易数据。
进一步地,所述解析实时交易数据合法性和有效性包括设置过滤器对格式化实时交易数据进行合法性检查和时效性检查;所述合法性检查包括检查交易是否满足预设的交易规则;所述时效性检查包括检查实时交易数据是否存在延迟和是否有效。
进一步地,所述根据实时交易数据查询关联的离线特征数据包括从实时交易数据提取交易特征主键信息,并依据交易特征主键信息查询存储的离线特征数据。
进一步地,所述根据离线特征数据将实时交易数据转换为对应不同特征以及特征下不同维度的多条输入数据包括将实时交易数据依据不同特征以及特征下不同维度转换为多条输入数据,针对不同特征以及特征下不同维度的多条输入数据执行聚合或累加操作得到并存储中间汇总结果。
进一步地,所述汇总输入数据形成实时预测特征输入集包括整合不同特征、维度的中间汇总结果与对应的离线特征数据形成实时预测特征输入集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信银行股份有限公司,未经中信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110333981.1/2.html,转载请声明来源钻瓜专利网。