[发明专利]文本识别模型的训练方法、文本识别方法及装置有效

申请号：	202210685043.2	申请日：	2022-03-22
公开（公告）号：	CN115035538B	公开（公告）日：	2023-04-07
发明（设计）人：	章成全;庾悦晨;李煜林;曹健健;钦夏孟;姚锟;韩钧宇;刘经拓;丁二锐;王井东	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06V30/19	分类号：	G06V30/19;G06V30/18;G06V30/16;G06V10/82;G06N3/0464;G06N3/08;G06F40/30
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	马姣琴;臧建明
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本识别模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种文本识别模型的训练方法、文本识别方法及装置，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别等场景。方案为：对获取到的第一样本图像中的部分图像进行掩码预测，得到与第一样本图像对应的预测完整图像，对获取到的第二样本图像中的部分文本进行掩码预测，得到与部分文本对应的预测文本内容，根据预测完整图像和预测文本内容训练得到预训练模型，并根据预训练模型生成文本识别模型，文本识别模型用于对待识别图像进行文本识别，使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力，从而当基于预训练模型生成的文本识别模型进行文本识别时，提高文本识别的准确性和可靠性。

技术领域

本公开涉及人工智能(Artificial Intelligence，AI)技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别(Optical CharacterRecognition，OCR)等场景，尤其涉及一种文本识别模型的训练方法、文本识别方法及装置。

背景技术

OCR技术在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用。

在相关技术中，可以结合OCR技术和深度学习构建文本识别模型，以基于文本识别模型对图像进行文本识别。

然而，文本识别模型通常依赖于视觉信息，以基于视觉信息辨别图像中的文本内容，存在识别的准确性偏低的弊端。

发明内容

本公开提供了一种用于提高文本识别的可靠性的文本识别模型的训练方法、文本识别方法及装置。

根据本公开的第一方面，提供了一种文本识别模型的训练方法，包括：

对获取到的第一样本图像中的部分图像进行掩码预测，得到与所述第一样本图像对应的预测完整图像；

对获取到的第二样本图像中的部分文本进行所述掩码预测，得到与所述部分文本对应的预测文本内容；

根据所述预测完整图像和所述预测文本内容训练得到预训练模型，并根据所述预训练模型生成文本识别模型，其中，所述文本识别模型用于对待识别图像进行文本识别。