[发明专利]一种数据处理方法及装置在审

申请号：	201910877235.1	申请日：	2019-09-17
公开（公告）号：	CN112529025A	公开（公告）日：	2021-03-19
发明（设计）人：	陈雷;应江勇;高聪立	申请（专利权）人：	华为技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08;G06N20/00
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例涉及一种数据处理方法，方法包括：获取原始数据集；采用平均端口杰森香农散度得到第一指标；将原始数据集中的数据输入至生成对抗网络并生成第一扩充数据；结合第一扩充数据以及原始数据集中的数据，并采用平均端口杰森香农散度得到第二指标；当第二指标大于第一指标时，将第一扩充数据添至原始数据集中，得到第一数据集；用第一数据集替换原始数据集。通过上述方法，可以持续获取多样性数据，并且得到完备多样的数据集。同时得到的完备的训练数据集，可以有效地提高了网络模型的泛化能力。

技术领域

本申请涉及人工智能领域，尤其涉及一种基于生成对抗网络持续获取多样性数据的数据处理方法及装置。

背景技术

目前，基于机器学习的图像识别技术，通过对大量的样本图像进行训练，以获得具有广泛识别功能的网络模型。但是，在实际训练过程中，可能存在某些类别收集到的图像数量相对较少，不能够全面反映出这些类别的信息。然而采用某些类别数量较为稀少的样本图像对网络模型进行训练，所训练处的模型准确度又偏低，迁移能力也较弱。

一个模型的精度与鲁棒性跟训练数据是紧密相关的，但是采用人工标注持续获取数据的方式成本很高，并且效率较低。传统的数据增强方式有对图像的简单缩放、以图像为中心点做指定大小的裁剪操作、对图像进行随机的水平或垂直的翻转等方式。通过传统的数据增强方式可以扩充样本数量，但是扩增后的数据很可能具较多冗余数据。目前的图像增强方式主要用于特定的任务场景，其中，图像增强是增强图像中的有用信息，其目的是针对给定图像的应用场合，改善图像的视觉效果，加强图像判读和识别效果，满足某些特殊分析的需要。针对目前的图像增强方式，对于持续生成的数据在数据冗余性方面仍存在缺陷。

发明内容

本申请实施例提供了一种获取多样性数据的方法及装置。可以持续获取到具有多样性的数据，并不断扩充原始数据集，从而可以得到完备多样的数据集

第一方面，提供了一种数据处理的方法，方法包括：获取原始数据集；采用平均端口杰森香农散度评估原始数据集，得到第一指标，第一指标用于表示原始数据集的多样性；将原始数据集中的数据输入至生成对抗网络(generative adversarial networks，GAN)并生成第一扩充数据；结合第一扩充数据以及原始数据集中的数据，并采用平均端口杰森香农散度进行评估，得到第二指标，第二指标用于表示结合第一扩充数据后原始数据集的多样性；当第二指标大于第一指标时，将第一扩充数据添至原始数据集中，得到第一数据集；用第一数据集替换原始数据集。其中，平均端口杰森香农散度(mean inception jensen-shannon，Mean_Inception_JS)表示计算数据集中每个数据平均的端口杰森香农散度，即该数据集中各个数据之间的平均距离，以体现数据集的多样性是否丰富。JS散度也称JS距离，用于衡量两个概率分布差别的对称性度量。GAN是一种深度学习模型，通常情况下用于数据的生成，生成的数据用与真实数据极为相似，并用来做数据增强。

在一个可能的实施方式中，在得到第一指标之后，方法还包括：对原始数据集的数据进行特征提取；采用局部离群点因子(local outlier factor，LOF)算法检测特征提取后的原始数据集的数据，得到离群点集；将离群点集中的数据输入至GAN并生成第一扩充数据。其中，在特征空间中，离群点与其最近邻之间的邻近性显著偏离数据集中其它数据与它们自己的最近邻之间的邻近性；离群点集则为所有离群点的集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910877235.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种双电机单速带轮边减速平行轴电驱桥
下一篇：监控进程的方法和监控进程的装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种数据处理方法及装置在审

专利文献下载