[发明专利]一种数据处理方法及装置在审
申请号: | 201910877235.1 | 申请日: | 2019-09-17 |
公开(公告)号: | CN112529025A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 陈雷;应江勇;高聪立 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取原始数据集;
采用平均端口杰森香农散度评估所述原始数据集,得到第一指标,所述第一指标用于表示所述原始数据集的多样性;
将所述原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据;
结合所述第一扩充数据以及所述原始数据集中的数据,并采用所述平均端口杰森香农散度进行评估,得到第二指标,所述第二指标用于表示结合所述第一扩充数据后所述原始数据集的多样性;
当所述第二指标大于所述第一指标时,将所述第一扩充数据添至所述原始数据集中,得到第一数据集;
用所述第一数据集替换所述原始数据集。
2.如权利要求1所述的方法,其特征在于,在所述得到第一指标之后,所述方法还包括:
对所述原始数据集的数据进行特征提取;
采用局部离群点因子LOF算法检测特征提取后的所述原始数据集的数据,得到离群点集;
将所述离群点集中的数据输入至GAN并生成所述第一扩充数据。
3.如权利要求1或2所述的方法,其特征在于,所述生成对抗网络GAN采用的损失函数具有多个参数,其中,所述多个参数包括端口杰森香农散度和核最大平均差异。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述原始数据集中具有的标签,从公开数据集中引入具有相同标签的数据;
对具有相同标签的所述公开数据集中的数据进行特征提取;
结合所述具有相同标签的所述公开数据集中的数据以及所述第一数据集中的数据,并采用所述平均端口杰森香农散度进行评估,得到第三指标,所述第三指标用于表示结合具有相同标签的所述公开数据集中的数据后所述第一数据集的多样性;
当所述第三指标大于所述第一指标时,将具有相同标签的所述公开数据集中的数据作为第二扩充数据。
5.如权利要求4所述的方法,所述具有相同标签包括:
所述公开数据集中的标签与所述原始数据集中的标签相同;或
所述公开数据集中的标签属于所述原始数据集中的标签的子集。
6.如权利要求4或5所述的方法,其特征在于,所述方法还包括:
将所述第二扩充数据添加至所述原始数据集中,得到所述第二数据集;
用所述第二数据集替换所述原始数据集。
7.如权利要求4或5所述的方法,其特征在于,所述方法还包括:
对所述第二扩充数据采用所述GAN生成第三扩充数据;
结合所述第三扩充数据以及所述原始数据集中的数据,并采用所述平均端口杰森香农散度进行评估,得到第四指标,所述第四指标用于表示结合所述第三扩充数据后所述原始数据集的多样性;
当所述第四指标大于所述第一指标时,将所述第三扩充数据添加至所述原始数据集中,得到第三数据集;
用所述第三数据集替换所述原始数据集。
8.如权利要求1-7任一所述的方法,其特征在于,所述原始数据集、所述第一数据集、所述第二数据集和/或所述第三数据集中数据的数据类型为图片类型。
9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取原始数据集;
评估模块,用于采用平均端口杰森香农散度评估所述原始数据集,得到第一指标,所述第一指标用于表示所述原始数据集的多样性;
第一生成模块,用于将所述原始数据集中的数据输入至生成对抗网络GAN并生成第一扩充数据;
所述评估模块还用于,结合所述第一扩充数据以及所述原始数据集中的数据,并采用所述平均端口杰森香农散度进行评估得到第二指标,所述第二指标用于表示结合所述第一扩充数据后所述原始数据集的多样性;
添加模块,用于当所述第二指标大于所述第一指标时,将所述第一扩充数据添加至所述原始数据集中,得到第一数据集;
替换模块,用于用所述第一数据集替换所述原始数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910877235.1/1.html,转载请声明来源钻瓜专利网。