[发明专利]文本位置定位方法和系统以及模型训练方法和系统在审
申请号: | 202110545049.5 | 申请日: | 2019-07-26 |
公开(公告)号: | CN113159016A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 顾立新;韩锋;韩景涛;曾华荣;刘庆杰 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 朱志玲;田方 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 位置 定位 方法 系统 以及 模型 训练 | ||
1.一种在图像中定位文本位置的方法,包括:
获取预测图像样本;
利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框,
其中,所述文本位置检测模型包括特征提取层、候选区域推荐层、级联的多级文本框分支以及掩膜分支,其中,特征提取层用于提取预测图像样本的特征以生成特征图,候选区域推荐层用于基于生成的特征图在预测图像样本中确定预定数量个候选文本区域,级联的多级文本框分支用于基于特征图中的与每个候选文本区域对应的特征来预测候选水平文本框,掩膜分支用于基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息,并根据预测出的掩膜信息确定用于在预测图像样本中定位文本位置的最终的文本框。
2.如权利要求1所述的方法,其中,利用预先训练的基于深度神经网络的文本位置检测模型确定用于在预测图像样本中定位文本位置的最终的文本框的步骤包括:
利用特征提取层提取预测图像样本的特征以生成特征图;
利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域;
利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框,并且通过第一非极大值抑制操作从初始候选水平文本框中筛选出文本框重合度小于第一重合度阈值的水平文本框作为候选水平文本框;
利用掩膜分支,基于特征图中与候选水平文本框对应的特征来预测候选水平文本框中的文本的掩膜信息,根据预测出的文本的掩膜信息确定初选文本框,并且通过第二非极大值抑制操作从确定的初选文本框中筛选出文本框重合度小于第二重合度阈值的文本框作为所述最终的文本框,其中,第一重合度阈值大于第二重合度阈值。
3.如权利要求2所述的方法,其中,获取预测图像样本的步骤包括:获取图像,并且对获取的图像进行多尺度缩放来获取与所述图像对应的不同尺寸的多个预测图像样本,其中,所述方法还包括:针对第一尺寸的预测图像样本,在利用所述文本位置检测模型确定了用于在第一尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸大于第一阈值的第一文本框,并且针对第二尺寸的预测图像样本,在利用所述文本位置检测模型确定了用于在第二尺寸的预测图像样本中定位文本位置的的文本框之后从该文本框中选择尺寸小于第二阈值的第二文本框,其中,第一尺寸小于第二尺寸;利用第三非极大值抑制操作对选择的第一文本框和第二文本框进行筛选,以得到用于在所述图像中定位文本位置的最终的文本框。
4.如权利要求2或3所述的方法,其中,所述级联的多级文本框分支是三级文本框分支,其中,利用级联的多级文本框分支基于特征图中的与每个候选文本区域对应的特征预测初始候选水平文本框包括:
利用第一级文本框分支,从特征图中提取与每个候选文本区域对应的特征并预测每个候选文本区域与真实文本区域的位置偏差以及每个候选文本区域包括文本的置信度和不包括文本的置信度,并且根据第一级文本框分支的预测结果确定第一级水平文本框;
利用第二级文本框分支,从特征图中提取与第一级水平文本框对应的特征并预测第一级水平文本框与真实文本区域的位置偏差以及第一级水平文本框包括文本的置信度和不包括文本的置信度,并根据第二级文本框分支的预测结果确定第二级水平文本框;
利用第三级文本框分支,从特征图中提取与第二级水平文本框对应的特征并预测第二级水平文本框与真实文本区域的位置偏差以及第二级水平文本框包括文本的置信度和不包括文本的置信度,并根据第三级文本框分支的预测结果确定初始候选水平文本框。
5.如权利要求2所述的方法,其中,利用候选区域推荐层基于生成的特征图在预测图像样本中确定预定数量个的候选文本区域的步骤包括:
利用候选区域推荐层基于生成的特征图预测候选文本区域与预先设置的锚点框之间的差异,根据该差异和锚点框确定初始候选文本区域,并利用第四非极大值抑制操作从初始候选文本区域中筛选出所述预定数量个候选文本区域,
其中,所述锚点框的宽高比是通过在所述文本位置检测模型的训练阶段对训练图像样本集中所标记的文本框的宽高比进行统计而确定的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110545049.5/1.html,转载请声明来源钻瓜专利网。