[发明专利]文本识别模型的训练方法、文本识别方法及装置有效
| 申请号: | 202210275278.4 | 申请日: | 2022-03-21 | 
| 公开(公告)号: | CN114372477B | 公开(公告)日: | 2022-06-10 | 
| 发明(设计)人: | 章成全;吕鹏原;刘珊珊;乔美娜;徐杨柳;吴亮;刘经拓;韩钧宇;丁二锐;王井东 | 申请(专利权)人: | 北京百度网讯科技有限公司 | 
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06V30/148;G06V10/774 | 
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 马姣琴;黄健 | 
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文本 识别 模型 训练 方法 装置 | ||
本公开提供了一种文本识别模型的训练方法、文本识别方法及装置,涉及人工智能技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别等场景。具体实现方案为:对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征,其中,样本图像中包括文本,根据预测视觉特征确定样本图像的文本的第一损失值,根据预测语义特征确定样本文本的第二损失值,根据第一损失值和第二损失值训练得到文本识别模型,以使得文本识别模型既能挖掘视觉信息,又能挖掘语义上下文逻辑,从而当基于文本识别模型进行文本识别时,可以提高文本识别的多样性和全面性。
技术领域
本公开涉及人工智能(Artificial Intelligence,AI)技术领域,具体为深度学习、计算机视觉技术领域,可应用于光学字符识别(Optical Character Recognition,OCR)等场景,尤其涉及一种文本识别模型的训练方法、文本识别方法及装置。
背景技术
OCR技术在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用。
在相关技术中,可以结合OCR技术和深度学习构建文本识别模型,以基于文本识别模型对图像进行文本识别。
然而,文本识别模型通常依赖于视觉信息,以基于视觉信息辨别图像中文本内容,存在识别的准确性偏低的弊端。
发明内容
本公开提供了一种用于提高文本识别的准确性的文本识别模型的训练方法、文本识别方法及装置。
根据本公开的第一方面,提供了一种文本识别模型的训练方法,包括:
对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征,其中,所述样本图像中包括文本;
根据所述预测视觉特征确定所述样本图像的文本的第一损失值,根据所述预测语义特征确定所述样本文本的第二损失值;
根据所述第一损失值和所述第二损失值训练得到文本识别模型,其中,所述文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别。
根据本公开的第二方面,提供了一种文本识别方法,包括:
获取待识别对象,其中,所述待识别对象中包括文本,所述待识别对象为待识别图像,或者为待识别文本;
基于预先训练的文本识别模型对所述待识别对象进行文本识别,得到与所述待识别对象对应的文本内容;
其中,所述文本识别模型为基于如第一方面所述的方法得到的。
根据本公开的第三方面,提供了一种文本识别模型的训练装置,包括:
第一预测单元,用于对获取到的样本图像的视觉特征进行掩码预测,得到预测视觉特征,其中,所述样本图像中包括文本;
第二预测单元,用于对获取到的样本文本的语义特征进行掩码预测,得到预测语义特征;
第一确定单元,用于根据所述预测视觉特征确定所述样本图像的文本的第一损失值;
第二确定单元,用于根据所述预测语义特征确定所述样本文本的第二损失值;
训练单元,用于根据所述第一损失值和所述第二损失值训练得到文本识别模型,其中,所述文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别。
根据本公开的第四方面,提供了一种文本识别装置,包括:
获取单元,用于获取待识别对象,其中,所述待识别对象中包括文本,所述待识别对象为待识别图像,或者为待识别文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210275278.4/2.html,转载请声明来源钻瓜专利网。





