[发明专利]一种富格式文档的图形识别方法和系统在审
| 申请号: | 202210477699.5 | 申请日: | 2022-05-05 |
| 公开(公告)号: | CN114724165A | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 王俊;乔美萱;向俊夫;侯启予 | 申请(专利权)人: | 南京吾道知信信息技术有限公司 |
| 主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/413;G06N3/08;G06N3/04;G06K9/62;G06V10/764;G06V10/82;G06V10/25 |
| 代理公司: | 北京棘龙知识产权代理有限公司 11740 | 代理人: | 李改平 |
| 地址: | 211100 江苏省南京市江宁*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 格式 文档 图形 识别 方法 系统 | ||
1.一种富格式文档的图形识别方法,其特征在于,所述方法包括:
识别文档页面中图形的区域和类别;
基于所述图形类别,获得图形区域中的对象,所述对象包括:形状对象、文本块和连线;
根据文本块所在的位置,建立文本块与形状对象或连线的关联;
根据连线的端点,找到连线的邻近对象,所述邻近对象包括邻近连线和邻近形状对象;
根据连线的类别,将相邻连线进行整合,获得整合连线;
建立所述整合连线、邻近形状对象和文本块的关联,并获得结构化信息。
2.根据权利要求1所述的图形识别方法,其特征在于,通过机器学习的方法识别图形类别:
识别文档页面的视觉特征;
获取页面中对象在视觉特征中的候选框;
所述候选框池化后,通过神经网络获得到边框和粗分类;
根据所述粗分类,获得图形的边框或对象;
所述图形的视觉特征上采样或多尺度视觉特征融合后上采样,获得第二特征图;
获得所述边框相应的精细特征;
针对所述精细特征,在图形的相应范围内提取文本特征;
根据所述精细特征和文本特征,分别获得视觉向量和文本向量;
将所述视觉向量和文本向量拼接后,通过多层感知机进行分类,获得图形类别。
3.根据权利要求2所述的图形识别方法,其特征在于,通过CNN+FPN或SwinTransformer的方法,提取图形的视觉特征;
通过RPN从所述视觉特征中获得候选框;
所述候选框通过RoIAlign池化后,通过MLP对所述候选框进行校正,获得的边框和粗分类;
根据所述边框的位置和大小,从所述第二特征图中获得精细特征;
对所述精细特征或边框进行文本检测,获得文本框的位置和文本特征;
采用简单词向量或语境相关的方法,获得文本特征的词向量;
对文本块中的词向量进行池化操作,得到文本块向量;
对图形中所有文本块向量进行池化操作,获得所述页面或图形的文本向量;
将精细特征经1x1卷积降维后,通过多层感知机转变为视觉向量。
4.根据权利要求2所述的图形识别方法,其特征在于,所述图形类别包括股权结构图、组织架构图、框架图、流程图、工程图、电路图和分子结构图。
5.根据权利要求2所述的图形识别方法,其特征在于,将所述候选框的特征图送入掩膜预测模块,得到候选框的掩膜。
6.根据权利要求5所述的图形识别方法,其特征在于,所述连线或整合连线的类型包括:直线、分叉线、折线和曲线;
所述分叉线包括总线部分和分线部分,所述分叉线整合的方法包括:
根据所述掩膜,识别连线的端点,所述端点包括起点和终点;
根据所述连线的类别,获得总线部分和分线部分;
基于所述端点将所述分线部分段衔接到总线部分,获得分叉线;
折线整合的方法包括:根据边框的类别,获得折线的各个分段;根据端点,对所述分段进行衔接,获得折线;
所述曲线或斜线的识别方法:获得曲线或斜线边框的旋转角度,以及起始点和结束点。
7.根据权利要求1所述的图形识别方法,其特征在于,
若距离两个或多个文本块最近的是同一形状对象或连线,则将这些文本块合并在一起,整体作为所述开关对象或连线的文本标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京吾道知信信息技术有限公司,未经南京吾道知信信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210477699.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调节型眼科手术头位固定器
- 下一篇:一种智能防盗型收款机





