[发明专利]金融类文档信息处理方法、装置、电子设备及存储介质有效
申请号: | 201911194180.0 | 申请日: | 2019-11-28 |
公开(公告)号: | CN110909226B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 焦嘉烽;陈运文;张健;王璐;纪达麒;王亚楠 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/16;G06F16/172;G06F40/232;G06Q40/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 201203 上海市浦东新区中国(上海)自*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 金融类 文档 信息处理 方法 装置 电子设备 存储 介质 | ||
1.一种金融类文档信息处理方法,其特征在于,包括:
将待审核的金融类文档,通过文档处理模块生成文档结构化数据;
将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据;
将所述文档结构化数据输入到文字纠错模型中,输出纠错结果并进行存储;
将所述文档结构化数据输入到管理人员信息抽检校验模块,对管理人员的信息进行校验,生成管理人员信息的校验结果;
将所述财务科目结构化数据输入到财务指标公式计算模块,生成财务指标公式的校验结果;
将所述财务科目结构化数据输入到财务科目变化校验模块中,对所述财务科目结构化数据中涉及财务科目变化的数据进行校验,生成财务科目变化的校验结果;
将所述财务科目结构化数据输入到财务报表抽取校验模块,生成财务科目数据与对应基准数据的校验结果;
将所有的校验结果以及所述纠错结果进行展示;
所述将所述文档结构化数据通过模型进行预处理以及财务科目抽取,并将抽取结果输入到数据归一化模块中,基于预处理数据以及归一化结果生成财务科目结构化数据,包括:
通过表格光学字符识别OCR模型识别所述文档结构化数据中的表格类图片,并识别所述图片中的表格,得到识别后的文档结构化数据;
将识别后的文档结构化数据输入到表格分类模型中,得到各个表格对应的主体以及所述表格的类别;
将文档结构化数据输入到释义表抽取模型得到报告期以及发行人的指代关系,生成解析后的结构化数据;
将所述文档结构化数据输入到段落分类模型中,得到各个段落对应的主体;
将所述文档结构化数据输入到表格财务科目抽取模型,抽取表格的财务科目以及对应的信息;
将所述文档结构化数据输入到文本财务科目抽取模型,抽取文本的财务科目以及对应的信息;
根据构建的财务科目知识图谱以及解析后的结构化数据,将抽取的财务科目以及对应信息进行归一化操作,并基于归一化的抽取结果、所述主体、以及表格类别生成最终的财务科目结构化数据;
以释义表中的二维数组中每一行文本段落以及释义表中的上文信息作为输入,以所述释义表中的指代关系作为输出,对释义表抽取模型进行训练;
以训练集中金融类文档对应的文档结构化数据中表格上文信息、以及表格的二维数据中每一行文本段为输入,以表格的类别以及表格对应的主体为输出,对表格分类模型进行训练;
以训练集中金融类文档对应的文档结构化数据的段落以及段落的上文信息为输入,以段落对应的主体为输出,对段落分类模型进行训练;
以训练集中金融类文档对应的文档结构化数据中财务科目描述段落为输入,以财务科目对应的信息为输出,对文本财务科目抽取模型进行训练;
以训练集中金融类文档对应的文档结构化数据中财务科目描述段落为输入,以财务科目对应的信息为输出,对表格财务科目抽取模型进行训练;
采用文档结构化数据中的表述正确的段落作为语料,对文字纠错模型进行训练;
采用训练集中金融类文档对应的文档结构化数据中的表格类图片作为语料,对表格OCR模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述将所述财务科目结构化数据输入到财务指标公式计算模块,生成财务指标公式校验结果,包括:
将所述财务科目结构化数据以主体、年份为区分代入预配置的财务指标公式中,计算出结果,并将所述结果对应的目标财务科目与所述目标财务科目的基准数据进行比较,将不一致的财务科目保存到校验结果中。
3.根据权利要求1所述的方法,其特征在于,将所述财务科目结构化数据输入到财务科目变化校验模块中,对所述财务科目结构化数据中涉及财务科目变化的数据进行校验,生成财务科目变化校验结果,包括:
将所述财务科目结构化数据输入到财务科目变化校验模块中,基于财务科目结构化数据中涉及财务科目变化的描述生成财务科目增减信息的数据结构;
将所述数据结构中财务科目的变化值/变化率与变化值/变化率的基准数据进行比较,生成财务科目变化值/变化率校验结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911194180.0/1.html,转载请声明来源钻瓜专利网。