[发明专利]光学字符识别模型训练方法、装置、设备及介质在审
| 申请号: | 202210056338.3 | 申请日: | 2022-01-18 |
| 公开(公告)号: | CN114399766A | 公开(公告)日: | 2022-04-26 |
| 发明(设计)人: | 吴天学;刘鹏 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06V30/10 | 分类号: | G06V30/10;G06V10/774;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 光学 字符 识别 模型 训练 方法 装置 设备 介质 | ||
本发明涉及人工智能领域,揭露一种光学字符识别模型训练方法,包括:利用搜索引擎对实际生产中的原始图片集及原始数据集进行错误数据筛选,确定错误数据组成负样本数据集和非错误数据组成正样本数据集;利用光学字符识别模型识别正样本数据集、负样本数据集及原始图片集的预测字符集;计算预测字符集与真实字符标注集及错误字符标注集的损失值,若损失值不满足预设条件,调整该模型的参数,直到损失值满足预设条件,得到训练完成的光学字符识别模型。本发明还涉及一种区块链技术,训练完成的光学字符识别模型可存储在区块链节点中。本发明还提出一种光学字符识别模型训练装置、设备以及介质。本发明可以提高光学字符识别模型训练的效率和准确率。
技术领域
本发明涉及人工智能领域,尤其涉及一种光学字符识别模型训练方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人工智能技术的研究和发展,对光学字符识别模型(比如OCR深度学习识别模型)的识别准确率提出了越来越高的要求,由于一个成熟的OCR深度学习识别模型需要经过几十次甚至上百次的迭代,所以一些科技企业为了获取成熟的OCR深度学习识别模型投入了大量人力物力,实现OCR深度学习识别模型的快速开发和迭代,以满足业务增长的需求。
但是,传统的光学字符识别模型在训练中存在开发环境训练数据与生产环境数据分布有差异,导致在开发环境中识别效果较佳的光学字符识别模型未必可以在生产环境达到一样好的识别效果,导致光学字符识别模型准确率低下;当识别效果不佳时,仍不断重复构建测试数据进行测试,导致光学字符识别模型训练效率低下且准确率依旧无法得到提高。
发明内容
本发明提供一种光学字符识别模型训练方法、装置、电子设备及计算机可读存储介质,其主要目的是为了提高光学字符识别模型训练的效率和准确率。
为实现上述目的,本发明提供的一种光学字符识别模型训练方法,包括:
获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中;
当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集;
获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新;
将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集;
通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
可选地,所述对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集,包括:
利用预设的搜索引擎获取所述原始数据集中原始数据的序列长度,并利用预设的搜索引擎中的预设筛选语句设置序列长度索引;
将所述序列长度与所述序列长度索引作长度对比,将与所述序列长度索引的长度不一致的序列长度对应的原始数据组成负样本数据集,并将与所述序列长度索引的长度一致的序列长度对应的原始数据组成正样本数据集。
可选地,所述确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集之后,所述方法还包括:
获取所述正样本数据集和所述负样本数据集的数据字段,识别所述数据字段中的敏感字段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210056338.3/2.html,转载请声明来源钻瓜专利网。





