[发明专利]一种基于模式识别的半结构文档识别方法及系统在审
申请号: | 202111324189.6 | 申请日: | 2021-11-10 |
公开(公告)号: | CN114038001A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 张雷震 | 申请(专利权)人: | 上海汇航捷讯网络科技有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 高海涛 |
地址: | 200120 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式识别 结构 文档 识别 方法 系统 | ||
本发明提供一种基于模式识别的半结构文档识别方法,包括:将半结构文档转换为图片,获取文字信息及文字的坐标;以半结构文档的关键信息的位置作为锚点,构建锚点图;建立上下树、左右树的树数据结构,建立文档模板;进行模式匹配,对新的半结构文档用上下树、左右树中的锚点信息进行匹配;进行信息抽取,将半结构化信息转化为结构化信息。本发明结合树数据结构与模式识别方法提取文档信息,提升了文档信息提取的准确率,也提升了识别的泛化能力;具有语义泛化能力,能够提升锚点本身的语义泛化能力;能够自定义模板,提升应对不同格式文档的能力,对文档的支持速度得到了大幅度的提升。
技术领域
本发明涉及考试计算机信息处理技术领域,具体而言,涉及一种基于模式识别的半结构文档识别方法及系统。
背景技术
日常生产生活中,半结构化的文档是经常使用的一种文档,比如发票、超市小票、登记表等,这种文档由于设计人不同,其格式也是千差万别,这也导致其难以转换成结构化的数据。
随着信息技术的发展,数据是一座亟待开发的宝藏,而半结构化的文档如果不能转成结构化的数据,不能录入到计算机系统,其价值则没有得到完整开发,是一种资源的浪费。因此,如何将非结构化数据转换成结构化的数据,成为文档信息提取的热点。
目前国内外解决上述问题的主要方式为运用规则逻辑和深度学习的方式,但是其中,规则逻辑的方式存在识别准确率不高、无法应对格式变换、后期难以进行维护升级的问题;深度学习的方式具有准确率不高、可解释性不强、结果不具有确定性的问题,并且两者都具有对新类型的文档开发周期长、支持速度慢的问题。
发明内容
鉴于此,本发明的目的在于解决差异性较大的半结构化文档的信息提取问题,解决不能将半结构化文档快速录入计算机系统以及录入速度慢的问题。
本发明提供一种基于模式识别的半结构文档识别方法,包括以下步骤:
S1、将半结构文档转化为图片,从图片中提取半结构文档中的文字,获取文字在图片中的空间坐标特征;
S2、构建锚点图,以半结构文档的关键信息的位置作为锚点,获取锚点的四个边界形成的矩形框四个点的坐标,在所述图片上框选出关键信息的位置,形成锚点图;
S3、对每种类型的半结构文档的所述锚点图建立树数据结构,都由上到下读取和存储锚点,按照上下顺序建立层次,形成上下树,由左向右读取和存储锚点,按照左右顺序建立层次,形成左右树,通过所述上下树和所述左右树的结构描述半结构文档的锚点信息,建立文档模板;
S4、进行目标信息的提取,在锚点图上检索、查找决定目标信息的四个边界的锚点,用所述四个边界的锚点的位置来描述目标信息的位置,将半结构化信息转化为结构化信息。
进一步地,所述S4步骤之后还包括以下步骤:
S5、对新的半结构文档查找锚点,用所述文档模板匹配新的半结构文档的锚点,匹配成功则证明新的半结构文档与所述文档模板的结构模式相对应;
S6、如匹配文档模板成功,用所述文档模板下的锚点描述目标信息的方式来反推目标信息的位置,获取目标信息;
如匹配文档模板不成功,则对新的半结构文档进行S1-S4步骤,建立新的文档模板,对现有的模板不影响。
进一步地,所述S2步骤的所述通过标注工具的方法包括根据锚点的语义信息为锚点标注标签。
进一步地,所述S2步骤的所述关键信息包括语义信息。
进一步地,所述S2步骤的获取锚点的四个边界形成的矩形框四个点的坐标的方法包括:通过标准工具。
进一步地,所述S3步骤的所述上下树,如果最上方有多个锚点,则建立多棵上下树,如果最上方只有1个锚点,则只建立1棵上下树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海汇航捷讯网络科技有限公司,未经上海汇航捷讯网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111324189.6/2.html,转载请声明来源钻瓜专利网。