[发明专利]一种针对实际OCR场景下的视觉富文档信息抽取方法有效

申请号：	202110168304.9	申请日：	2021-02-07
公开（公告）号：	CN112801010B	公开（公告）日：	2023-02-14
发明（设计）人：	唐国志;金连文;林上港;汪嘉鹏;薛洋	申请（专利权）人：	华南理工大学
主分类号：	G06V30/41	分类号：	G06V30/41;G06V30/414;G06V30/262;G06F40/295;G06F16/35;G06F40/30
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对实际 ocr 场景视觉文档信息抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，包括以下步骤：

收集实际场景下的视觉富文本图像，对搜集的图像进行文本行位置、文本内容以及命名实体属性的标注，采用启发式的方法标注命名实体标签，利用检测识别方法得到OCR结果；命名实体属性的标注具体为针对实际OCR结果下的命名实体标签，所述命名实体标签是指使用BIO tagging的序列标注方法对语句单词的标注；

所述BIO tagging是一种对给定句子中的单元做序列标注的方式，对于一个给定句子，将其中每个词标注为B、I以及O中的一个，其中B指示某短语起始，I指示短语内部，O指示不在短语中；

所述采用启发式的方法标注命名实体标签具体为：

根据人工标注的结果与OCR的检测结果匹配IOU的值，选取与人工标注结果重复度最高的OCR结果，赋予人工标注结果的命名实体标签，所述IOU为模型预测的检测框与人工标注的检测框之间的交并比；

所述利用检测识别方法得到OCR结果具体为：

利用预训练的目标检测框架和文字识别框架Paddle OCR分别得到基于预测的文本检测和识别结果，OCR结果的命名实体的标注通过与人工标注的结果比较，取出最高的IOU结果作为命名实体标签；

利用预训练词嵌入模型抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征；

训练命名实体分类模块，按照命名实体识别任务的方式生成每个字符的命名实体属性标签，训练过程中采用交叉熵分类损失函数训练；

构建基于图卷积GAT的全局文档图结构，引入自注意力机制构建全连接有向图；构建基于图卷积GAT的全局文档图结构具体为：

文档图的节点特征采用每个字符的语义特征，所述语义特征为预训练词嵌入模型将维数为所有词数量的高维空间嵌入到低维的连续向量空间；文档图的边特征利用各字符的中心点距离，命名实体边界定位模块做二分类预测，以BIO tagging的实体标注方式预测每个命名实体的标注B和标注I；

所述引入自注意力机制具体为：

引入多头自注意力机制，文档图中所有节点采用全连接的方式，每个节点的预测结果需考虑到所有邻接矩阵边的相关性得分和所有节点的注意力得分；

训练命名实体边界定位模块，命名实体边界定位模块的训练标签根据命名实体分类模块的标签生成，根据每个字符的命名实体属性标注情况，将命名实体的第一个字符和最后一个字符设置为命名实体的边界，其他的设置为非边界；

构建多特征聚合结构，对命名实体分类概率和命名实体边界定位概率做加权和，得到命名实体维度的预测结果，并采用CRF条件随机场模型对预测结果做上下文的约束；

训练错误语义纠正模块，错误语义纠正模块采用GRU的解码结果，根据CRF的最优路径，取出对应维度特征的编码隐状态，通过将命名实体的类别信息，作为先验指导信息，指导每次解码器的输出，最终得到规范格式的实体命名信息；

错误语义纠正模块的训练过程中需要人工标注结果与实际OCR场景下的检测识别结果；

所述错误语义纠正模块采用GRU的解码结果，解码过程根据多特征聚合模块对每个字符的属性分类结果取出每个类别的所有字符，将这些字符构成的序列按序列的方向上进行递归，且所有节点按链式链接，融合实体类别信息指导解码和纠错；

所述融合实体类别信息指导解码和纠错具体为：

将字符的属性对应一个唯一的固定维度的向量，并将这个向量作为解码序列的最开头，让错误语义纠正模块学到根据类别信息指导解码的方式，最终抽取得到规范的实体命名信息。

2.根据权利要求1所述的一种针对实际OCR场景下的视觉富文档信息抽取方法，其特征在于，所述文本词嵌入为将每一个词用一个独一无二的数字表示编码，每个数字映射到固定的768维度的向量；

所述位置嵌入为将每个文本块在图片中的相对位置量化到0-1000之间的一个数字，随后通过矩阵运算将该区间的每个数值用一个固定维度的768维度的向量表示；

所述抽取字符级别和单词级别的文本词嵌入特征和位置嵌入特征具体为：

分别按照字符级和单词级以所述文本词嵌入和位置嵌入的方式提取文本词嵌入和位置嵌入，将文本词嵌入特征和位置嵌入特征融入预训练好的Transformer结构得到高层的特征表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110168304.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载