[发明专利]基于敏感数据的大数据处理方法、装置、设备和存储介质有效
申请号: | 201910876650.5 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110674373B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 张少典;马汉东 | 申请(专利权)人: | 上海森亿医疗科技有限公司 |
主分类号: | G06F16/9035 | 分类号: | G06F16/9035 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 倪静 |
地址: | 201213 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 敏感数据 数据处理 方法 装置 设备 存储 介质 | ||
本申请提供了一种基于敏感数据的大数据处理方法、装置、设备和存储介质,通过依据预设条件确立样本数量,并依据所述样本数量确立状态函数;根据所述状态函数筛选种子数,将满足筛选条件的所述种子数加入参数集合;判断参数集合是否满足所述样本数量,若满足则输出参数集合,反之,则跳转至上一步骤。本申请通过确立样本数量和状态函数,可以将去除敏感数据的原始数据集合中快速的筛选出需要的样本数据集合,并且状态函数可以通过不满足样本进行优化,使得样本数据集合所表现的数据特征与原始数据集合具有的真实性数据特征保持高度一致,具有筛选高效且保留原始数据集合真实性的优点。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种基于敏感数据的大数据处理方法、装置、设备和存储介质。
背景技术
目前,大数据领域一般涉及数据持有方、数据提供商和数据使用方。数据持有方拥有数据的使用权和所有权,但不知道该如何利用数据数,使数据产生价值;数据提供商有数据分析的能力,可以把原始数据进行分析,得出一些结论;数据使用方没有数据所有权,也没有数据分析能力,但是需要根据原始数据分析结果进行实际应用。
数据持有方会找到数据提供商合作,数据使用方购买数据,在医学数据或者政府身份数据等敏感数据领域,由于数据包含有敏感信息,不可以直接泄露给数据使用方,因此,数据使用方需购买数据提供商分析所得的数据分析结论。
现阶段的数据提供商通常采用随机抽样的方式来提高大数据的价值密度,通过这种方式得到的分析结果往往与大数据总集合所表现出来的真实性特征存在一定的误差性,通过扩大抽样样本的数量来减小这种误差,但是这样又会牺牲计算分析成本,使得数据使用方不能有效的了解到大数据全面的信息,无法针对性的进行应用,数据无法发挥出最大的利用价值,数据使用方也无法获知有效的分析数据,导致信息流通中的不对称。信息不对称引起信息交流的不通畅,造成数据提供商的分析过程很长很艰难,而且不能满足数据使用方的需求,达不到预期效果。
因此,如何在加速筛选条件下使样本数据集合与原始数据集合真实性特征保持一致,是本领域技术人员需要解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于敏感数据的大数据处理方法、装置、设备和存储介质,以解决现有技术中存在的至少一个问题。
为实现上述目的及其他相关目的,本申请提供一种基于敏感数据的大数据处理方法,所述方法包括:依据预设条件确立样本数量,并依据所述样本数量确立状态函数;根据所述状态函数筛选种子数,将满足筛选条件的所述种子数加入参数集合;判断参数集合是否满足所述样本数量,若满足则输出参数集合,反之,则跳转至上一步骤。
于本申请的一实施例中,所述根据所述状态函数筛选种子数,将满足筛选条件的所述种子数加入参数集合,包括:调取原始数据集合;随机抽取一个样本作为所述种子数,带入所述状态函数进行计算;判断是否满足所述筛选条件中对应多种参数要求的评价指标;若满足,进行下一步骤,反之,跳转至上一步骤;计算所述状态函数是否满足要求,若满足,进行下一步骤,反之,跳转至最后一步骤;将满足要求的所述种子数加入所述参数集合;拆解所述状态函数以分析不满足要求条件,将最优样本加入所述参数集合。
于本申请的一实施例中,所述原始数据集合为去除敏感数据的大数据集合;所述参数集合为样本数据集合。
于本申请的一实施例中,所述筛选条件是根据所述原始数据集合中的具体参数类别建立的。
于本申请的一实施例中,所述状态函数通过动态规范算法进行拆解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海森亿医疗科技有限公司,未经上海森亿医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910876650.5/2.html,转载请声明来源钻瓜专利网。