[发明专利]数据管理方法与装置有效
申请号: | 201910816081.5 | 申请日: | 2019-08-30 |
公开(公告)号: | CN112445791B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 赵娜 | 申请(专利权)人: | 金色熊猫有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G16H10/60 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 李晔;章侃铱 |
地址: | 中国香港铜锣湾希慎*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据管理 方法 装置 | ||
本公开提供一种数据管理方法与装置。数据管理方法包括:获取数据对象并确定所述数据对象的用途种类;根据所述用途种类确定唯一标记值生成公式;根据所述唯一标记值生成公式生成所述数据对象的唯一标记值。本公开提供的数据管理方法可以对数据对象生成唯一标记值。
背景技术
在数据处理领域,为了对数据进行精确的检索、更新,需要对数据对象(例如数字、数组、表等形式的数据)生成唯一识别符。在相关技术中,往往使用数据的名称、存储位置、排列序号等作为数据对象的识别符,但是这种方式并不能保证该识别符在大数据应用场景下绝对唯一。
例如,在需要对大量过期数据进行定期抓取以更新数据库的应用场景下(如在8月1日抓取1~7月的用户就诊信息存入数据库,在9月1日抓取1~8月的用户就诊信息更新数据库),由于数据是按照日期抓取的,各数据并不具有固定的序号,而在数据量较大的情况下,根据数据的其他特征确定识别符也并不能保证该识别符是唯一的。此外,如果一条数据被应用在多个数组中,而这些数组均属于同一张表中时,使用名称或存储位置生成识别符并不能保证每个数组中的该条数据具有不同的识别符,对后续数组中数据的更新造成了困扰。
因此,需要一种能够尽可能保证数据识别符唯一性的数据管理方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据管理方法与数据管理装置,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据标识易重复的问题。
根据本公开实施例的第一方面,提供一种数据管理方法,包括:获取数据对象并确定所述数据对象的用途种类;根据所述用途种类确定唯一标记值生成公式根据所述唯一标记值生成公式生成所述数据对象的唯一标记值。
在本公开的一个示例性实施例中,所述唯一标记值生成公式根据以下步骤确定:
确定目标用途种类对应的多个特征;
根据所述多个特征确定临时标记值生成公式;
根据所述临时标记值生成公式对n个测试数据生成n个测试标记值;
当检测到所述n个测试标记值中唯一值的占比超过所述预设阈值时,将所述临时标记值生成公式设置为所述目标用途种类对应的唯一标记值生成公式。
在本公开的一个示例性实施例中,所述根据所述多个特征值确定临时标记值生成公式包括:
根据所述用途种类选择所述多个特征中的m个特征,m≥2;
根据所述m个特征的特征值与预设运算形式的组合形成所述临时标记值生成公式,所述预设运算形式包括计算加权和、计算乘积。
在本公开的一个示例性实施例中,当m=2时,所述预设运算形式为计算加权和,运算形式中的每个参数的权重均为0.5,所述临时标记值生成公式为计算两个特征的特征值之和。
在本公开的一个示例性实施例中,所述预设阈值根据以下步骤确定:
以预设方式生成N个临时标记值生成公式;
根据所述N个临时标记值生成公式对n个测试数据生成N组测试标记值,每组测试标记值的数量为n个;
确定每组测试标记值中的相同测试标记值对应的相同数据对象的第一数量;
将N个第一数量的平均值与n的比值确定为数据重合概率t;
将1-t设置为所述预设阈值。
在本公开的一个示例性实施例中,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金色熊猫有限公司,未经金色熊猫有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910816081.5/2.html,转载请声明来源钻瓜专利网。