[发明专利]文本识别模型的训练方法、文本识别方法及装置有效

申请号：	202210275278.4	申请日：	2022-03-21
公开（公告）号：	CN114372477B	公开（公告）日：	2022-06-10
发明（设计）人：	章成全;吕鹏原;刘珊珊;乔美娜;徐杨柳;吴亮;刘经拓;韩钧宇;丁二锐;王井东	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06K9/62;G06V30/148;G06V10/774
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	马姣琴;黄健
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本识别模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种文本识别模型的训练方法、文本识别方法及装置，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征，其中，样本图像中包括文本，根据预测视觉特征确定样本图像的文本的第一损失值，根据预测语义特征确定样本文本的第二损失值，根据第一损失值和第二损失值训练得到文本识别模型，以使得文本识别模型既能挖掘视觉信息，又能挖掘语义上下文逻辑，从而当基于文本识别模型进行文本识别时，可以提高文本识别的多样性和全面性。

技术领域

本公开涉及人工智能（Artificial Intelligence，AI）技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别（Optical Character Recognition，OCR）等场景，尤其涉及一种文本识别模型的训练方法、文本识别方法及装置。

背景技术

OCR技术在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用。

在相关技术中，可以结合OCR技术和深度学习构建文本识别模型，以基于文本识别模型对图像进行文本识别。

然而，文本识别模型通常依赖于视觉信息，以基于视觉信息辨别图像中文本内容，存在识别的准确性偏低的弊端。

发明内容

本公开提供了一种用于提高文本识别的准确性的文本识别模型的训练方法、文本识别方法及装置。

根据本公开的第一方面，提供了一种文本识别模型的训练方法，包括：

对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征，其中，所述样本图像中包括文本；

根据所述预测视觉特征确定所述样本图像的文本的第一损失值，根据所述预测语义特征确定所述样本文本的第二损失值；

根据所述第一损失值和所述第二损失值训练得到文本识别模型，其中，所述文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别。