[发明专利]文字识别模型的训练方法及装置在审

申请号：	202111215914.6	申请日：	2021-10-19
公开（公告）号：	CN113947773A	公开（公告）日：	2022-01-18
发明（设计）人：	宋振旗;李长亮	申请（专利权）人：	北京金山数字娱乐科技有限公司
主分类号：	G06V30/148	分类号：	G06V30/148;G06V10/40;G06K9/62
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	李晓庆
地址：	100085 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字识别模型训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供文字识别模型的训练方法及装置，其中所述文字识别模型的训练方法包括：获取样本数据，并确定所述样本数据中的形近字；在预设的字典中提取所述形近字对应的替换形近字，并基于所述替换形近字对所述样本数据进行更新，获得负样本数据；基于所述负样本数据和所述样本数据对初始文字识别模型进行训练；通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化，直至获得满足训练停止条件的目标文字识别模型。

技术领域

本申请涉及机器学习技术领域，特别涉及文字识别模型的训练方法及装置。

背景技术

随着互联网技术的发展，文字识别技术在越来越多的场景中得以应用，通过文字识别技术不仅可以减少人工识别成本，还能够提高识别效率，因此文字识别技术的识别精准度是衡量识别效果好坏的重要因素。而目前的OCR识别技术，大多使用检测和识别两个阶段组成的方式进行识别任务的处理。其中文字识别阶段大多使用CRNN+LSTM+CTC的模型结构，其中CRNN是用于从包含待识别文字的图像中进行特征提取，LSTM是用于对特征解码得到文本输出，CTC作为损失函数可以对齐OCR的识别结果，从而保证对图像中的文字进行识别。然而，由于不同语种的文字中可能包含大量的形近字，如汉语、韩语等，很大程度会提高文字识别难度，尤其是在一些证件识别、签名识别场景中，如果将文字识别错误，会严重影响业务正常进行，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本申请实施例提供了一种文字识别模型的训练方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文字识别模型的训练装置，一种文字识别方法，一种文字识别装置，一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种文字识别模型的训练方法，包括：

获取样本数据，并确定所述样本数据中的形近字；

在预设的字典中提取所述形近字对应的替换形近字，并基于所述替换形近字对所述样本数据进行更新，获得负样本数据；

基于所述负样本数据和所述样本数据对初始文字识别模型进行训练；

通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化，直至获得满足训练停止条件的目标文字识别模型。

可选地，所述确定所述样本数据中的形近字，包括：

提取所述样本数据中包含的文本信息，并对所述文本信息进行预处理获得多个字单元；

将各个字单元分别与所述预设的字典中包含的字单元进行匹配，根据匹配结果确定所述形近字。

可选地，所述将各个字单元分别与预设的字典中包含的字单元进行匹配，根据匹配结果确定所述形近字，包括：

获取各个字单元分别对应的字符特征；