[发明专利]一种基于语义的电子证件照的数据扩增方法及系统在审

申请号：	202110513791.8	申请日：	2021-05-12
公开（公告）号：	CN112990221A	公开（公告）日：	2021-06-18
发明（设计）人：	郑志松;吴运昌;周一笑;朱千垚	申请（专利权）人：	江苏数兑科技有限公司
主分类号：	G06K9/34	分类号：	G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京细软智谷知识产权代理有限责任公司 11471	代理人：	涂凤琴
地址：	210000 江苏省南京市秦淮区永智路***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语义电子证件数据扩增方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于语义的电子证件照的数据扩增方法及系统，该方法通过对扩增后的电子证件照数据集，增加样本的语义覆盖率和样本分布均匀度，实现了数量和语义覆盖度上的可观改善，输出满足预设质量要求的电子证件照测试数据集，从而实现通过少量数据集扩增岀大量高质量数据集。本发明提供的技术方案，由于在电子证件照数据扩增后，又考虑了样本的语义覆盖率和样本分布均匀度，因此输出的数据质量更佳，可以满足深度学习的各种场景应用需求，操作简单、准确率高、用户体验度好、满意度高。

技术领域

本发明涉及深度学习技术领域，具体涉及一种基于语义的电子证件照的数据扩增方法及系统。

背景技术

现有技术中，深度学习的成功主要依赖于三个重要的因素：大数据、大计算以及算法模型的创新。在实际应用中，真正拥有大量高质量标注数据的场景还是非常少的，人工标注数据的成本十分高昂。在标注数据不足的情况下，数据扩增是一种非常有效的提升模型性能的方法。

对于图像数据而言，现有技术对其进行一系列变换来实现数据扩增。例如，对原始图像应用旋转、左右翻转、裁剪、放缩等变换，这并不会改变图像的类别。通过这种方式，可以根据一张图像扩展出多张图像，有效地增加训练数据，防止模型的过拟合现象。但是，该方法只是对原始图像进行简单变换，数据扩增效果不佳，无法满足深度学习的场景应用需求。

发明内容

有鉴于此，本发明的目的在于提供一种基于语义的电子证件照的数据扩增方法及系统，以解决现有技术图像数据扩增效果不佳，导致无法满足深度学习的场景应用需求的问题。

根据本发明实施例的第一方面，提供一种基于语义的电子证件照的数据扩增方法，包括：

获取待处理的电子证件照数据集；

对所述电子证件照数据集进行数据扩增；

对扩增后的电子证件照数据集，增加样本的语义覆盖率和样本分布均匀度，直至输出满足预设质量要求的电子证件照测试数据集。

优选地，所述方法，还包括：

根据相似度，对所述电子证件照测试数据集进行标注。

优选地，所述对所述电子证件照进行数据扩增，包括：

输入待处理的电子证件照数据集D，一组通用算子Ω；

对于D中的每一个电子证照样本di，从Ω中随机选取指定数量的扩增算子与di匹配；

对于每个di，使用与其匹配的扩增算子进行扩增计算，得到新的扩增数据di’，并将di’存入D中；