[发明专利]信息处理方法、信息处理装置、电子设备和存储介质有效
| 申请号: | 202011057666.2 | 申请日: | 2020-09-29 |
| 公开(公告)号: | CN112052835B | 公开(公告)日: | 2022-10-11 |
| 发明(设计)人: | 倪子涵;孙逸鹏;姚锟;韩钧宇;丁二锐;刘经拓;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/418;G06V30/148;G06V10/82;G06V30/19;G06N3/04;G06N3/08 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳;张曦 |
| 地址: | 100094 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 信息处理 方法 装置 电子设备 存储 介质 | ||
1.一种信息处理方法,包括:
识别图像中的多个文本项;
基于所述多个文本项的语义,将所述多个文本项划分为名称文本项的第一集合和内容文本项的第二集合;
基于所述多个文本项在所述图像中的布置,执行所述第一集合中的名称文本项与所述第二集合中的内容文本项的位置匹配,以确定与所述第一集合的名称文本项匹配的所述第二集合的内容文本项;以及
输出匹配的所述名称文本项和所述内容文本项;
其中执行所述第一集合的名称文本项与所述第二集合中的内容文本项的位置匹配包括:
针对所述第一集合中的待匹配的名称文本项,确定匹配的内容文本项的候选集合;
在所述候选集合中,确定与所述待匹配的名称文本项距离最近的候选内容文本项;以及
如果确定所述候选内容文本项满足匹配条件,则确定所述候选内容文本项与所述待匹配的名称文本项匹配;
其中所述匹配条件包括以下至少一项:
所述候选内容文本项与所述待匹配的名称文本项之间的位置关系符合所述图像中的信息布置结构,
所述候选内容文本项与所述待匹配的名称文本项之间的距离小于阈值距离,以及
所述候选内容文本项和所述待匹配的名称文本项的中心点连线和参考方向的夹角与参考夹角之间的差异小于阈值角度。
2.根据权利要求1所述的方法,其中识别所述图像中的所述多个文本项包括:
基于文本项检测模型,从所述图像中检测多个文本项区域;以及
基于文字识别模型,从所述多个文本项区域中识别所述多个文本项。
3.根据权利要求2所述的方法,其中所述文本项检测模型通过基于专用数据执行对初始文本项检测模型的增量学习来构造,其中所述初始文本项检测模型是使用通用数据训练的,所述专用数据包括经标注的名称文本项和内容文本项。
4.根据权利要求1所述的方法,其中基于所述多个文本项的语义,将所述多个文本项划分为所述第一集合和所述第二集合包括:
基于语义分类模型,确定所述多个文本项中的每个文本项是名称文本项还是内容文本项。
5.根据权利要求4所述的方法,其中所述语义分类模型通过基于专用数据执行对初始语义分类模型的增量学习来构造,其中所述初始语义分类模型是使用通用数据训练的,所述专用数据包括经标注的名称文本项和内容文本项。
6.根据权利要求1所述的方法,还包括:
如果确定所述候选内容文本项不满足所述匹配条件,则从所述候选集合中去除所述候选内容文本项。
7.根据权利要求6所述的方法,还包括:
如果确定从所述候选集合去除的内容文本项的数目达到阈值,则确定所述待匹配的名称文本项不存在匹配的内容文本项。
8.根据权利要求1所述的方法,其中确定所述候选集合包括:
将所述第二集合初始地确定为所述候选集合。
9.根据权利要求1所述的方法,还包括:
在所述第一集合和所述第二集合中,确定距离最小的参考名称文本项和参考内容文本项;以及
基于所述参考名称文本项和所述参考内容文本项之间的位置关系,确定所述信息布置结构。
10.根据权利要求9所述的方法,其中确定所述信息布置结构包括:
确定所述参考名称文本项和所述参考内容文本项的中心点连线与参考方向的夹角;
如果确定所述夹角属于第一角度范围,则确定所述信息布置结构为左右结构;
如果确定所述夹角属于第二角度范围,则确定所述信息布置结构为上下结构;以及
如果确定所述夹角属于第三角度范围,则确定所述信息布置结构为右左结构。
11.根据权利要求1所述的方法,还包括:
确定匹配的多对名称文本项与内容文本项之间的多个距离;以及
基于所述多个距离的平均值,确定所述阈值距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011057666.2/1.html,转载请声明来源钻瓜专利网。





