[发明专利]基于样本的多维数据克隆在审
申请号: | 201880016701.0 | 申请日: | 2018-03-27 |
公开(公告)号: | CN110753913A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 于江生;马仕俊 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F11/26 | 分类号: | G06F11/26;G06F11/263 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多维 累积分布函数 随机样本 多变量 样本点 构建 集合 随机变量 随机邻居 数据集 随机数 采样 群体 替换 克隆 | ||
1.一种用于生成包含随机数的数据集的计算机实现方法,所述随机数由多变量群体分布所分布,其特征在于,所述方法包括:
从所述多变量群体的多维随机样本的集合中构建一组经验累积分布函数,其中每个经验累积分布函数由随机变量的观察结果构建;
从所述多维随机样本的集合中采样多个多维样本点;
将所述多维样本点中的每个多维样本点替换为随机邻居以生成克隆数据。
2.根据权利要求1所述的计算机实现方法,其特征在于,还包括:为所述多维样本点中的一个或多个多维样本点的元素生成所述随机邻居。
3.根据权利要求2所述的计算机实现方法,其特征在于,为所述多维样本点中的所述一个或多个多维样本点的每个元素生成所述随机邻居包括:
按递增次序对所述随机变量的不同的观察值进行排序;
当所述多维样本点中的任意一个多维样本点的所述元素中的一个对应元素是所述观测值的最小值和最大值之间的一个值、所述观测值的所述最小值和所述观测值的所述最大值中的一个时,为所述对应元素生成所述随机邻居。
4.根据权利要求3所述的计算机实现方法,其特征在于,为所述对应元素生成所述随机邻居还包括:
将所述对应元素的左边界定义为一个或多个最近左邻居的所述最小值;
将所述对应元素的右边界定义为一个或多个最近右邻居的所述最大值;
生成第一随机数,所述第一随机数在由所述左边界和所述右边界构建的第一区间上均匀分布;
搜索两个相邻的观察值,以使所述相邻的观察值的经验累积分布函数范围覆盖所述第一随机数;
由所述两个相邻观察值定义第二区间;
当所述对应的随机变量为连续或离散时生成所述随机邻居。
5.根据权利要求4所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:
生成在所述第二区间上均匀分布的第二随机数。
6.根据权利要求4所述的计算机实现方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居包括:将第二随机数定义为所述第二区间的所述右边界。
7.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:生成在第三区间上从所述观察值的所述最小值到另一个值均匀分布的第二随机数。
8.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量连续时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:生成在第四区间上从非最大值观察值到所述最大值均匀分布的第二随机数。
9.根据权利要求3所述的计算机实现方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最小值,包括:从所述最小观察值的预定数量生成第二随机数。
10.根据权利要求3所述的计算机实施的方法,其特征在于,当所述对应的随机变量离散时,为所述一个或多个多维随机样本点的所述元素生成所述随机邻居,而所述随机邻居是所述观察值的所述最大值,包括:从所述最大观察值的预定数量生成第二随机数。
11.根据权利要求1至10中任一项所述的计算机实现方法,其特征在于,由一个或多个并行处理器执行将样本点的数量替换为随机邻居。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880016701.0/1.html,转载请声明来源钻瓜专利网。