[发明专利]文字识别模型的训练方法及装置在审
申请号: | 202111215914.6 | 申请日: | 2021-10-19 |
公开(公告)号: | CN113947773A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 宋振旗;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V10/40;G06K9/62 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李晓庆 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 模型 训练 方法 装置 | ||
1.一种文字识别模型的训练方法,其特征在于,包括:
获取样本数据,并确定所述样本数据中的形近字;
在预设的字典中提取所述形近字对应的替换形近字,并基于所述替换形近字对所述样本数据进行更新,获得负样本数据;
基于所述负样本数据和所述样本数据对初始文字识别模型进行训练;
通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
2.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述确定所述样本数据中的形近字,包括:
提取所述样本数据中包含的文本信息,并对所述文本信息进行预处理获得多个字单元;
将各个字单元分别与所述预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字。
3.根据权利要求2所述的文字识别模型的训练方法,其特征在于,所述将各个字单元分别与预设的字典中包含的字单元进行匹配,根据匹配结果确定所述形近字,包括:
获取各个字单元分别对应的字符特征;
基于所述字符特征查询所述预设的字典,根据查询结果确定在所述预设的字典中存在字单元集合的目标字符特征;
将所述目标字符特征对应的字单元作为所述形近字。
4.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述在预设的字典中提取所述形近字对应的替换形近字,包括:
在所述预设的字典中确定所述形近字对应的字单元集合;
将所述字单元集合中包含的各个字单元作为所述替换形近字。
5.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述基于所述替换形近字对所述样本数据进行更新,获得负样本数据,包括:
提取所述样本数据中包含的文本信息,并确定所述形近字在所述文本信息中的替换位置;
基于所述替换形近字对位于所述替换位置的所述形近字进行替换,根据替换结果获得目标文本信息;
基于所述目标文本信息生成所述负样本数据。
6.根据权利要求1至5任意一项所述的文字识别模型的训练方法,其特征在于,所述预设的字典通过如下方式创建:
获取初始形近字,并提取所述初始形近字对应的形近字特征;
基于所述形近字特征对所述初始形近字进行聚类处理,根据聚类处理结果获得至少一个字单元集合;
基于所述至少一个字单元集合创建所述预设的字典。
7.根据权利要求1所述的文字识别模型的训练方法,其特征在于,所述基于所述负样本数据和所述样本数据对初始文字识别模型进行训练,包括:
基于所述样本数据和所述负样本数据构建样本特征;
将所述样本特征输入至所述初始文字识别模型,通过所述初始文字识别模型中的卷积模块确定所述样本特征对应的卷积特征;
将所述卷积特征输入至所述初始文字识别模型中的解码模块进行处理,获得解码特征;
将所述解码特征输入至所述初始文字识别模型中的输出模块进行处理,获得所述初始文字识别模型输出的文字识别结果。
8.根据权利要求7所述的文字识别模型的训练方法,其特征在于,所述通过预设的第一损失函数和第二损失函数对训练后的初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型,包括:
基于所述第一损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第一损失值,以及
基于所述第二损失函数计算所述样本数据、所述负样本数据以及所述文字识别结果对应的第二损失值;
根据所述第一损失值和所述第二损失值对所述初始文字识别模型进行优化,直至获得满足训练停止条件的目标文字识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111215914.6/1.html,转载请声明来源钻瓜专利网。