[发明专利]文字检测和模型训练方法、装置、设备及存储介质在审
| 申请号: | 202210404529.4 | 申请日: | 2022-04-18 |
| 公开(公告)号: | CN114724133A | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 黄聚;张晓强;钦夏孟;章成全;姚锟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/146;G06V30/148;G06V30/19;G06V30/414;G06V10/82;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨丽爽;臧建明 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文字 检测 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种文字检测方法,包括:
获取待检测的第一图像;
将所述第一图像输入至文字检测模型,得到所述文字检测模型输出的分割图像和所述分割图像的图像类别,其中,所述图像类别指示所述分割图像中包括文本实例,或者,不包括文本实例;
根据所述分割图像和所述图像类别,在所述第一图像上确定目标区域,所述目标区域中包括文本实例。
2.根据权利要求1所述的方法,其中,将所述第一图像输入至文字检测模型,得到所述文字检测模型输出的分割图像和所述分割图像的图像类别,包括:
获取预设向量组,所述预设向量组中包括N个预设向量,所述N大于或等于所述第一图像中包括的文本实例的数量,所述N为正整数;
对所述第一图像进行特征提取处理,得到所述第一图像的特征矩阵;
根据所述预设向量组和所述特征矩阵,得到N个分割图像和所述N个分割图像的图像类别。
3.根据权利要求2所述的方法,根据所述预设向量组和所述特征矩阵,得到N个分割图像和所述N个分割图像的图像类别,包括:
对所述预设向量组和所述特征矩阵进行卷积处理,得到初始的第i个卷积矩阵,所述i=1;
根据解码器模块对所述预设向量组、所述第i个卷积矩阵和所述特征矩阵处理,得到所述N个分割图像和所述N个分割图像的图像类别。
4.根据权利要求3所述的方法,其中,所述解码器模块中包括L个子解码模块,所述L为大于或等于1的整数;根据解码器模块对所述预设向量组、所述第i个卷积矩阵和所述特征矩阵处理,得到所述N个分割图像和所述N个分割图像的图像类别,包括:
执行第一操作,所述第一操作包括:根据第i个子解码模块对第i个向量组、第i个卷积矩阵和所述特征矩阵处理,得到第i+1个向量组和第i+1个卷积矩阵,并更新所述i为i+1;其中,第1个向量组为所述预设向量组,初始时,所述i为1,所述i为正整数;
在所述i小于所述L时,重复执行所述第一操作,直至所述i等于所述L时,得到第L+1个向量组和第L+1个卷积矩阵;
根据所述第L+1个向量组,确定得到所述图像类别;
根据所述第L+1个卷积矩阵,确定得到所述N个分割图像。
5.根据权利要求1-4任一项所述的方法,其中,根据所述分割图像和所述图像类别,在所述第一图像上确定目标区域,包括:
根据所述分割图像,在所述第一图像中确定所述分割图像对应的区域;
根据所述图像类别,在所述分割图像对应的区域中确定所述目标区域。
6.一种模型训练方法,包括:
获取训练样本,所述训练样本中包括样本图像和标签图像,所述标签图像为对所述样本图像上的文本实例进行标注得到的图像;
将所述样本图像输入至文字检测模型,得到所述文字检测模型输出的分割图像和所述分割图像的图像类别,其中,所述图像类别指示所述分割图像中包括文本实例,或者,不包括文本实例;
根据所述分割图像、所述分割图像的图像类别和所述标注图像对所述文字检测模型的参数进行调整。
7.根据权利要求6所述的方法,其中,将所述样本图像输入至所述文字检测模型,得到所述文字检测模型输出的分割图像和所述分割图像的图像类别,包括:
获取预设向量组,所述预设向量组中包括N个预设向量,所述N大于或等于所述样本图像中包括的文本实例的数量,所述N为正整数;
对所述样本图像进行特征提取处理,得到所述样本图像的特征矩阵;
根据所述预设向量组和所述特征矩阵,得到N个分割图像和所述N个分割图像的图像类别。
8.根据权利要求7所述的方法,其中,根据所述预设向量组和所述特征矩阵,得到N个分割图像和所述N个分割图像的图像类别,包括:
对所述预设向量组和所述特征矩阵进行卷积处理,得到初始的第i个卷积矩阵,所述i=1;
根据解码器模块对所述预设向量组、所述第i个卷积矩阵和所述特征矩阵处理,得到所述N个分割图像和所述N个分割图像的图像类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210404529.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种猜图方法及系统
- 下一篇:表格识别方法及装置、存储介质及电子设备





