[发明专利]一种基于模式识别的半结构文档识别方法及系统在审
申请号: | 202111324189.6 | 申请日: | 2021-11-10 |
公开(公告)号: | CN114038001A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 张雷震 | 申请(专利权)人: | 上海汇航捷讯网络科技有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 高海涛 |
地址: | 200120 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式识别 结构 文档 识别 方法 系统 | ||
1.一种基于模式识别的半结构文档识别方法,其特征在于,包括以下步骤:
S1、将半结构文档转化为图片,从图片中提取半结构文档中的文字,获取文字在图片中的空间坐标特征;
S2、构建锚点图,以半结构文档的关键信息的位置作为锚点,获取锚点的四个边界形成的矩形框四个点的坐标,在所述图片上框选出关键信息的位置,形成锚点图;
S3、对每种类型的半结构文档的所述锚点图建立树数据结构,都由上到下读取和存储锚点,按照上下顺序建立层次,形成上下树,由左向右读取和存储锚点,按照左右顺序建立层次,形成左右树,通过所述上下树和所述左右树的结构描述半结构文档的锚点信息,建立文档模板;
S4、进行目标信息的提取,在锚点图上检索、查找决定目标信息的四个边界的锚点,用所述四个边界的锚点的位置来描述目标信息的位置,将半结构化信息转化为结构化信息。
2.根据权利要求1所述的半结构文档识别方法,其特征在于,所述S4步骤之后还包括以下步骤:
S5、对新的半结构文档查找锚点,用所述文档模板匹配新的半结构文档的锚点;
S6、如匹配文档模板成功,用所述文档模板下的锚点描述目标信息的方式来反推目标信息的位置,获取目标信息;
如匹配文档模板不成功,则对新的半结构文档进行S1-S4步骤,建立新的文档模板。
3.根据权利要求1所述的半结构文档识别方法,其特征在于,所述S2步骤的所述通过标注工具的方法包括根据锚点的语义信息为锚点标注标签。
4.根据权利要求1所述的半结构文档识别方法,其特征在于,所述S2步骤的所述关键信息包括语义信息。
5.根据权利要求1所述的半结构文档识别方法,其特征在于,所述S2步骤的获取锚点的四个边界形成的矩形框四个点的坐标的方法包括:通过标准工具。
6.根据权利要求1所述的半结构文档识别方法,其特征在于,所述S3步骤的所述上下树,如果最上方有多个锚点,则建立多棵上下树,如果最上方只有1个锚点,则只建立1棵上下树。
7.根据权利要求1所述的半结构文档识别方法,其特征在于,所述S3步骤的所述左右树,对于最左侧的锚点,如果有多个锚点,则建立多棵左右树,如果只有1个锚点,则建立1个左右树。
8.根据权利要求2所述的半结构文档识别方法,其特征在于,所述新的半结构文档查找锚点的方法包括用字典方式查找。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海汇航捷讯网络科技有限公司,未经上海汇航捷讯网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111324189.6/1.html,转载请声明来源钻瓜专利网。