[发明专利]文档元素的识别方法、装置、设备及存储介质有效
申请号: | 202210221314.9 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114332884B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 徐士戈;胡益清;吴云飞;刘兵;姜德强 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/148;G06V10/774;G06V10/80;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王宁宁 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 元素 识别 方法 装置 设备 存储 介质 | ||
1.一种文档元素的识别方法,其特征在于,包括:
获取包含了真实文档图像与类似真实文档图像的训练样本集合,其中,每个类似真实文档图像,是在相应的文档图像模板的元素显示区域,填充新的元素数据得到的;
基于所述训练样本集合,以循环迭代方式进行模型训练,输出训练完毕的文档元素识别模型,其中,一轮训练过程如下:
基于所述训练样本集合,获得具有相同文档内容,且具有不同图像尺寸的第一文档图像和第二文档图像;
分别对所述第一文档图像和所述第二文档图像进行编解码处理,获得各候选识别结果,其中,通过对所述第一文档图像进行编码处理,获得底层图像特征与高层图像特征,所述底层图像特征是通过深度残差网络的前n个残差块,对所述第一文档图像进行第一编码处理获得的,所述高层图像特征是通过空间金字塔池化网络,对中间层图像特征进行第二编码处理获得的,所述第二编码处理包括多尺度空间卷积、池化融合与通道卷积;通过对融合的底层图像特征与所述高层图像特征进行解码处理,获得编解码图像特征,并基于获得的编解码图像特征,分别确定所述第一文档图像上各文档元素的元素显示区域及元素类别,获得相应的候选识别结果;
基于获得的各候选识别结果,分别确定所述第一文档图像上各文档元素的元素显示区域及元素类别,获得相应的预测识别结果;
基于所述预测识别结果及相应的处理后的标注结果,调整所述文档元素识别模型的模型参数;
其中,所述处理后的标注结果是通过执行以下操作获得的:使用结构元遍历所述第一文档图像上的各像素点,以获得所述第一文档图像中缩减后的各所述元素显示区域;其中,每遍历一个像素点,将所述结构元覆盖区域中的最小像素值,作为当前遍历的所述一个像素点的新像素值。
2.如权利要求1所述的识别方法,其特征在于,通过执行以下操作,获得一个类似真实文档图像:
获取一个文档图像模板;
按照规定的模板排列逻辑,将获得的各新的元素数据,填充到所述一个文档图像模板的各元素显示区域;
将已填充元素数据的文档图像模板,确定为所述一个类似真实文档图像。
3.如权利要求2所述的识别方法,其特征在于,所述一个文档图像模板的各元素显示区域包括图片区域、表格区域、文本区域和分割线区域;
在按照规定的模板排列逻辑,将获得的各新的元素数据,填充到所述一个文档图像模板的各元素显示区域之前,还包括:
当所述图片区域与所述表格区域间的数量比例不满足设定阈值时,将部分图片区域转换为所述表格区域,或将部分表格区域转换为所述图片区域,以使调整后的所述图片区域与所述表格区域间的数量比例满足设定阈值。
4.如权利要求3所述的识别方法,其特征在于,所述按照规定的模板排列逻辑,将获得的各新的元素数据,填充到所述一个文档图像模板的各元素显示区域,包括:
按照各所述图片区域的高宽比,调整符合图片尺寸要求的各图片的高宽比,并将调整后的各所述图片,填充到相应的图片区域中;以及,
按照各所述表格区域的高宽比,调整符合表格尺寸要求的各表格的高宽比,并将调整后的各所述表格,填充到相应的表格区域中;以及,
调整各文本的字体、字号与粗细中的至少一种,并将调整后的各所述文本,填充到相应的文本区域中;以及,
调整各分割线的线条长度与线条宽度,并将调整后的各所述分割线,填充到相应的分割线区域中。
5.如权利要求3所述的识别方法,其特征在于,所述按照各所述图片区域的高宽比,调整与各所述图片区域的高宽比接近的图片的高宽比,包括:
按照各所述图片区域的高宽比,对与各所述图片区域的高宽比接近的图片进行随机缩放、随机拉伸中的至少一种,以使各所述图片的高宽比不超过相应的图片区域的高宽比。
6.如权利要求3所述的识别方法,其特征在于,所述分割线区域的位置为以下至少一种:
位于所述一个文档图像模板的上方区域;
位于所述一个文档图像模板的下方区域;
位于所述一个文档图像模板的左侧区域;
位于所述一个文档图像模板的右侧区域;
位于图注或表注的上方区域;
位于图注或表注的下方区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210221314.9/1.html,转载请声明来源钻瓜专利网。