[发明专利]文字识别模型的训练方法及装置在审
申请号: | 202111215914.6 | 申请日: | 2021-10-19 |
公开(公告)号: | CN113947773A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 宋振旗;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V10/40;G06K9/62 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李晓庆 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 模型 训练 方法 装置 | ||
本申请提供文字识别模型的训练方法及装置,其中所述文字识别模型的训练方法包括:获取样本数据,并确定所述样本数据中的形近字;在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
技术领域
本申请涉及机器学习技术领域,特别涉及文字识别模型的训练方法及装置。
背景技术
随着互联网技术的发展,文字识别技术在越来越多的场景中得以应用,通过文字识别技术不仅可以减少人工识别成本,还能够提高识别效率,因此文字识别技术的识别精准度是衡量识别效果好坏的重要因素。而目前的OCR识别技术,大多使用检测和识别两个阶段组成的方式进行识别任务的处理。其中文字识别阶段大多使用CRNN+LSTM+CTC的模型结构,其中CRNN是用于从包含待识别文字的图像中进行特征提取,LSTM是用于对特征解码得到文本输出,CTC作为损失函数可以对齐OCR的识别结果,从而保证对图像中的文字进行识别。然而,由于不同语种的文字中可能包含大量的形近字,如汉语、韩语等,很大程度会提高文字识别难度,尤其是在一些证件识别、签名识别场景中,如果将文字识别错误,会严重影响业务正常进行,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种文字识别模型的训练方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文字识别模型的训练装置,一种文字识别方法,一种文字识别装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文字识别模型的训练方法,包括:
获取样本数据,并确定所述样本数据中的形近字;
在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
可选地,所述确定所述样本数据中的形近字,包括:
提取所述样本数据中包含的文本信息,并对所述文本信息进行预处理获得多个字单元;
将各个字单元分别与所述预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字。
可选地,所述将各个字单元分别与预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字,包括:
获取各个字单元分别对应的字符特征;
基于所述字符特征查询所述预设的字典,根据查询结果确定在所述预设的字典中存在字单元集合的目标字符特征;
将所述目标字符特征对应的字单元作为所述形近字。
可选地,所述在预设的字典中提取所述形近字对应的替换形近字,包括:
在所述预设的字典中确定所述形近字对应的字单元集合;
将所述字单元集合中包含的各个字单元作为所述替换形近字。
可选地,所述基于所述替换形近字对所述样本数据进行更新,获得负样本数据,包括:
提取所述样本数据中包含的文本信息,并确定所述形近字在所述文本信息中的替换位置;
基于所述替换形近字对位于所述替换位置的所述形近字进行替换,根据替换结果获得目标文本信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111215914.6/2.html,转载请声明来源钻瓜专利网。