[发明专利]一种报表对比方法及装置在审
申请号: | 202110416820.9 | 申请日: | 2021-04-19 |
公开(公告)号: | CN113111635A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 季宪瑞 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/18;G06K9/62;G06N3/02;G06N20/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;王涛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 报表 对比 方法 装置 | ||
本发明提供了一种报表对比方法及装置,可以应用于金融领域,方法包括:对获取的报表进行去格式化处理并从去格式化后的报表中提取报表信息;将关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。本申请通过采集历史报表数据,然后对历史报表数据进行预处理后作为训练样本训练神经网络模型生成报表预测模型,用该预测模型对报表进行对比,替代了人工对比报表的方式,实现了有效降低人工开发测试成本,提升报表开发的准确性的技术效果。
技术领域
本申请属于软件开发技术领域,具体地讲,涉及一种报表对比方法及装置。
背景技术
在报表开发测试环节,依赖于人工肉眼观察表样与需求是否一致,部分数据对比常依赖于简单的数据对比工具,最后在经由人工判断报表开发是否符合监管规范。但是,报表样式繁多,仅依赖于人工肉眼识别存在不准确性并且耗费人力,时间成本巨大。现有的数据报表对比工具只能进行简单的数据计算上的比较,但无法识别报表的样式并且准确性低,而且现有的数据报表对比工具依赖于开发者的开发经验,投入使用后,报表经过人工开发测试时仍存在一定的问题。
发明内容
本申请提供了一种报表对比方法及装置,以至少解决当前开发样式繁多的报表时需要依赖人工对比报表是否符合监管规范的问题。
根据本申请的一个方面,提供了一种报表对比方法,包括:
对获取的报表进行去格式化处理并从去格式化后的报表中提取报表信息;
将关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。
在一实施例中,预测模型的生成方法包括:
对获取的数据源报表进行数字化处理并生成训练样本集合;
通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型。
在一实施例中,对获取的数据源报表进行数字化处理并生成训练样本集合,包括:
去除数据源报表中的格式化;
对去格式化后的数据源报表进行扫描并确定报表中的有效区域;
对有效区域中的报表信息进行抽取并按照报表信息对报表进行种类划分;
根据划分种类的报表建立不同种类的训练样本集合。
在一实施例中,通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型,包括:
为训练样本集合中的一部分训练样本数据加注标签;
将有标签的训练样本数据输入逻辑回归模型中,并利用逻辑回归模型标记无标签的训练样本数据;
根据标记结果更新逻辑回归模型的参数生成与报表种类参数适配的预测模型。
根据本申请的另一个方面,还提供了一种报表对比装置,包括:
报表信息提取单元,用于对获取的报表进行去格式化处理并从去格式化后的报表中提取报表信息;
对比结果生成单元,用于将关键数据输入预先生成的与报表种类参数适配的预测模型中获得对比结果。
在一实施例中,本申请的报表对比装置中还包括一预测模型生成装置,预测模型的生成装置包括:
训练样本集合生成单元,用于对获取的数据源报表进行数字化处理并生成训练样本集合;
模型训练单元,用于通过训练样本集合训练预先建立的逻辑回归模型获得与报表种类参数适配的预测模型。
在一实施例中,训练样本集合生成单元包括:
去格式化模块,用于去除数据源报表中的格式化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110416820.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种贵金属价格趋势预测方法及装置
- 下一篇:一种数据表的数据清理方法及装置