[发明专利]一种数据处理方法及装置在审
申请号: | 201910877235.1 | 申请日: | 2019-09-17 |
公开(公告)号: | CN112529025A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 陈雷;应江勇;高聪立 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本申请实施例涉及一种数据处理方法,方法包括:获取原始数据集;采用平均端口杰森香农散度得到第一指标;将原始数据集中的数据输入至生成对抗网络并生成第一扩充数据;结合第一扩充数据以及原始数据集中的数据,并采用平均端口杰森香农散度得到第二指标;当第二指标大于第一指标时,将第一扩充数据添至原始数据集中,得到第一数据集;用第一数据集替换原始数据集。通过上述方法,可以持续获取多样性数据,并且得到完备多样的数据集。同时得到的完备的训练数据集,可以有效地提高了网络模型的泛化能力。
技术领域
本申请涉及人工智能领域,尤其涉及一种基于生成对抗网络持续获取多样性数据的数据处理方法及装置。
背景技术
目前,基于机器学习的图像识别技术,通过对大量的样本图像进行训练,以获得具有广泛识别功能的网络模型。但是,在实际训练过程中,可能存在某些类别收集到的图像数量相对较少,不能够全面反映出这些类别的信息。然而采用某些类别数量较为稀少的样本图像对网络模型进行训练,所训练处的模型准确度又偏低,迁移能力也较弱。
一个模型的精度与鲁棒性跟训练数据是紧密相关的,但是采用人工标注持续获取数据的方式成本很高,并且效率较低。传统的数据增强方式有对图像的简单缩放、以图像为中心点做指定大小的裁剪操作、对图像进行随机的水平或垂直的翻转等方式。通过传统的数据增强方式可以扩充样本数量,但是扩增后的数据很可能具较多冗余数据。目前的图像增强方式主要用于特定的任务场景,其中,图像增强是增强图像中的有用信息,其目的是针对给定图像的应用场合,改善图像的视觉效果,加强图像判读和识别效果,满足某些特殊分析的需要。针对目前的图像增强方式,对于持续生成的数据在数据冗余性方面仍存在缺陷。
发明内容
本申请实施例提供了一种获取多样性数据的方法及装置。可以持续获取到具有多样性的数据,并不断扩充原始数据集,从而可以得到完备多样的数据集
第一方面,提供了一种数据处理的方法,方法包括:获取原始数据集;采用平均端口杰森香农散度评估原始数据集,得到第一指标,第一指标用于表示原始数据集的多样性;将原始数据集中的数据输入至生成对抗网络(generative adversarial networks,GAN)并生成第一扩充数据;结合第一扩充数据以及原始数据集中的数据,并采用平均端口杰森香农散度进行评估,得到第二指标,第二指标用于表示结合第一扩充数据后原始数据集的多样性;当第二指标大于第一指标时,将第一扩充数据添至原始数据集中,得到第一数据集;用第一数据集替换原始数据集。其中,平均端口杰森香农散度(mean inception jensen-shannon,Mean_Inception_JS)表示计算数据集中每个数据平均的端口杰森香农散度,即该数据集中各个数据之间的平均距离,以体现数据集的多样性是否丰富。JS散度也称JS距离,用于衡量两个概率分布差别的对称性度量。GAN是一种深度学习模型,通常情况下用于数据的生成,生成的数据用与真实数据极为相似,并用来做数据增强。
在一个可能的实施方式中,在得到第一指标之后,方法还包括:对原始数据集的数据进行特征提取;采用局部离群点因子(local outlier factor,LOF)算法检测特征提取后的原始数据集的数据,得到离群点集;将离群点集中的数据输入至GAN并生成第一扩充数据。其中,在特征空间中,离群点与其最近邻之间的邻近性显著偏离数据集中其它数据与它们自己的最近邻之间的邻近性;离群点集则为所有离群点的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910877235.1/2.html,转载请声明来源钻瓜专利网。