[发明专利]一种基于分类变换扰动机制的均值估计方法及装置有效

申请号：	202011428994.9	申请日：	2020-12-09
公开（公告）号：	CN112580701B	公开（公告）日：	2022-07-12
发明（设计）人：	朱素霞;王蕾;孙广路	申请（专利权）人：	哈尔滨理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/11
代理公司：	暂无信息	代理人：	暂无信息
地址：	150080 黑龙江省哈***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分类变换扰动机制均值估计方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于分类变换扰动机制的均值估计方法及装置，属于信息安全技术领域，该机制采用了数据变换扰动的方式，将数值型数据划分变换范围并进行分段，根据分段将其变换为一维二元分类数据；对转换后的数据使用随机响应机制进行扰动，再根据扰动后的数据标识的数值段从中随机均匀抽取数值作为扰动值；与其他方法相比，该方法在满足本地差分隐私机制的同时，在数据分析任务如均值估计中能获得较高的数据效用性，得到的模型的分类准确性要更高，性能要更好。

技术领域

本发明属于信息安全技术领域，具体涉及一种基于分类变换扰动机制的均值估计方法及装置。

背景技术

本地差分隐私机制作为差分隐私的分支，提供了比差分隐私还要强大的隐私保障，其最典型的扰动机制是随机响应机制。在本地差分隐私中，假设服务器是不可信的，用户不直接将原始数据发给服务器，而是在本地对数据进行扰动使其满足本地差分隐私，然后再将扰动后的数据发送给服务器。服务器对收集的噪声数据进行相应的数据分析任务，得到所需的统计信息。使用本地差分隐私进行隐私保护不需要进行大量复杂的运算，并且可以在获得较为准确的统计信息的同时有效的保障用户数据的隐私性，从而避免了用户隐私泄露的问题。

由于有上述优势，本地差分隐私机制广泛地应用于各个领域，例如：统计数据库、图像处理、隐私保护数据发布以及隐私保护数据挖掘等。而近年来，针对不同类型数据，也提出了很多本地差分隐私方法，而且在实际的应用中也取得了很多的成果。但是，现有的本地差分隐私机制的准确性较差，仍具有较大的提升空间。并且这些方法大多直接对数据进行扰动，忽略了转换数据类型进行扰动的可能性，忽略了可以通过变换数据类型进行扰动以平衡数据的效用性和隐私性的可能性。

发明内容

为解决上述问题，本发明提供了一种基于分类变换扰动机制的均值估计方法，所述方法包括步骤：

对数据进行预处理，将数据映射到-1到1的范围；

将数值型数据以数据点为中心划分成四段；

将数据根据划分的数据段进行随机抽取，转换为一维二元分类数据；

采用随机响应机制对转换后得到的分类数据进行扰动；

根据扰动后数据对应的数据段，在该数据段随机均匀抽取一个值作为其扰动后的数值型数据；

将所有的数据使用该扰动机制进行扰动；

使用扰动后数据计算属性均值；

计算数据扰动后得出的均值与未扰动的均值的绝对误差。

优选地，所述数据映射的表达公式为：

其中，v表示用户的原始数据，U表示该属性的最大值，L表示该属性的最小值，v′表示该值经过映射之后得到的值。