[发明专利]预标注模型训练、证件预标注方法、装置、设备及介质有效
申请号: | 202110211382.2 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112926654B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 王晟宇 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/74;G06V10/774 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 谭果林 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 模型 训练 证件 方法 装置 设备 介质 | ||
本发明涉及人工智能的分类模型领域,提供一种预标注模型训练、证件预标注方法、装置、设备及介质,方法包括:通过获取目标标注类别、目标描述、模型性能参数和图像样本集;运用文本相似度技术,在目标分类识别库中爬取待迁移类别;通过模拟目标识别技术,从目标分类识别库中查找待迁移模型,以及识别出的各图像样本的目标区域;进行目标微调得到微调区域,并将图像样本、微调区域和目标标注类别输入待迁移模型中;运用迁移学习技术,获取标注出目标标注区域;根据目标标注区域和微调区域,确定损失值;训练待迁移模型直至训练完成得到预标注模型。本发明实现了零标注的图像样本集自动训练,并获得预标注模型,减少了人工标注时间和工作量。
技术领域
本发明涉及人工智能的分类模型领域,尤其涉及一种预标注模型训练、证件预标注方法、装置、计算机设备及存储介质。
背景技术
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,计算机视觉技术(CV,Computer Vision)是一门研究如何使机器“看”的科学,通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别文字识别(OCR,Optical Character Recognition)等技术。
而随着人工智能技术逐渐成熟,图像识别技术越来越广泛地应用到日常生活中。为了得到识别精确更高的图像识别模型,需要通过大量的已标注样本对图像识别模型进行训练,而在现有技术中在构建训练样本时,通常采用手动输入等人工标注的方式实现,不仅耗费人力成本,还大大降低了样本的标注效率,给模型训练上带来了极大的困难。
发明内容
本发明提供一种预标注模型训练、证件预标注方法、装置、计算机设备及存储介质,实现了通过文本相似度技术、爬取技术和模拟目标识别技术和迁移学习技术,能够进行零标注的图像样本集自动训练,减少了人工标注时间和工作量,提高了标注效率,节省了投入成本,提高了预标注的准确性。
一种预标注模型训练方法,包括:
获取目标标注类别、与所述目标标注类别对应的目标描述、模型性能参数和图像样本集;所述图像样本集包括至少一个图像样本;所述图像样本与所述目标标注类别对应;
运用文本相似度技术,在目标分类识别库中爬取与所述目标描述相似的历史类别,将爬取到的所述历史类别确定为待迁移类别;
通过模拟目标识别技术,从所述目标分类识别库中查找到与所述待迁移类别和所述模型性能参数匹配的待迁移模型,以及通过所述待迁移模型识别出的各所述图像样本的目标区域;
对所有所述目标区域进行目标微调,得到与各所述图像样本对应的微调区域,并将所述图像样本、与所述图像样本对应的所述微调区域和所述目标标注类别输入所述待迁移模型中;所述待迁移模型包含迁移参数;
运用迁移学习技术,通过所述待迁移模型自适应学习目标类别特征的提取,获取所述待迁移模型标注出与所述图像样本对应的目标标注区域;
根据与所述图像样本对应的所述目标标注区域和所述微调区域,确定损失值;
在所述损失值未达到预设的收敛条件时,迭代更新所述待迁移模型的迁移参数,直至所述损失值达到所述预设的收敛条件时,将收敛之后的所述待迁移模型记录为训练完成的预标注模型。
一种证件预标注方法,包括:
接收到图像标注指令,获取所述图像标注指令中的证件图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110211382.2/2.html,转载请声明来源钻瓜专利网。