[发明专利]一种文本检测模型训练方法、装置、设备及存储介质有效

申请号：	202210040015.5	申请日：	2022-01-14
公开（公告）号：	CN114067321B	公开（公告）日：	2022-04-08
发明（设计）人：	单鼎一	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06V30/146	分类号：	G06V30/146;G06V30/148;G06V10/774;G06V10/82;G06K9/62;G06N3/04
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	朱佳
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本检测模型训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本检测模型训练方法，其特征在于，包括：

获取样本图像集合，其中，每个样本图像包含至少一个真实文本对象；

基于所述样本图像集合，对待训练的文本检测模型和全局语义分割模型进行联合迭代训练，输出已训练的目标文本检测模型；其中，在每次迭代训练过程中，执行以下操作：

通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，以及对所述样本图像进行特征提取，获得目标样本特征图像；对所述目标样本特征图像进行语义分割，获得所述样本图像中各个像素对应的预测全局类别；基于所述目标样本特征图像，生成所述样本图像中各个像素对应的特征向量；从所述各个像素中，确定预测全局类别为前景类别的目标像素；基于各个目标像素的特征向量，对所述各个目标像素进行聚类，获得至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签；基于所述至少一个目标像素集合以及所述至少一个目标像素集合各自对应的预测文本对象标签，获得至少一个第二预测文本对象；

基于所述样本图像中的至少一个真实文本对象以及相应的真实属性信息、所述至少一个第一预测文本对象以及相应的预测属性信息、所述至少一个第二预测文本对象，确定目标损失值，并采用所述目标损失值进行参数调整。

2.如权利要求1所述的方法，其特征在于，所述通过所述文本检测模型，对样本图像进行目标检测，获得至少一个第一预测文本对象以及相应的预测属性信息，包括：

对所述样本图像进行特征提取，获得多个不同尺寸的样本特征图像；

从多个样本特征图像中，切割出相应的多个初始文本框图像，并将所述多个初始文本框图像调整为相同尺寸，获得多个样本文本框图像；

对所述多个样本文本框图像进行实例分割，获得所述至少一个第一预测文本对象；

对所述多个样本文本框图像进行属性预测，获得所述至少一个第一预测文本对象各自对应的预测属性信息。

3.如权利要求2所述的方法，其特征在于，所述预测属性信息包括预测位置信息和预测类别；

所述对所述多个样本文本框图像进行属性信息预测，获得所述至少一个第一预测文本对象各自对应的预测属性信息，包括：

对所述多个样本文本框图像进行边框回归，获得所述至少一个第一预测文本对象各自对应的预测位置信息；

对所述多个样本文本框图像进行边框分类，获得至少一个第一预测文本对象各自对应的预测类别。

4.如权利要求2所述的方法，其特征在于，所述从多个样本特征图像中，切割出相应的多个初始文本框图像，包括：

针对所述多个样本特征图像，分别执行以下步骤：