[发明专利]一种基于安全多方计算的卡方分箱方法有效
| 申请号: | 202110999974.5 | 申请日: | 2021-08-27 |
| 公开(公告)号: | CN113688354B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 何道敬;孙黎彤;杜润萌;张民;张熙;廖清 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06F17/18 | 分类号: | G06F17/18;G06F21/60;G06F21/62;G06N20/20 |
| 代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 安全 多方 计算 卡方分箱 方法 | ||
本发明公开了一种基于安全多方计算的卡方分箱方法,对于联邦学习的特征工程,提出一种新的卡方值计算方法,不需要加密所有的特征数据发送给数据应用方进行特征预处理,而是先将特征数据按类别分组,混入虚假分组,并对分组类别进行标记后加密发送给数据应用方,加密分组类别将会大幅度减少加密处理的数据量,数据应用方不需要解密所有特征数据,避免了巨大的资源损耗;数据提供方发送给数据应用方的是特征数据的分组信息,数据应用方解密后获取的是特征数据的分组信息,不包含特征数据的实际内容,并且该分组信息添加了虚假分组信息,将真实分组和虚假分组进行编码标记,相比传输脱敏数据和将真实数据加密后传输来说,提高了数据隐私的安全性。
技术领域
本发明属于联邦学习领域,特别涉及一种基于安全多方计算的卡方分箱方法。
背景技术
在联邦学习开始前首先需要构建一个数据集,而不是直接使用原始数据进行建模。将原始数据转换为数据集的任务称为特征工程。
特征选择是特征工程中重要的一步,一般在建立分类模型时,首先,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。在特征选择的过程中常常会进行分箱操作,分箱就是将连续型的特征数据离散化。分箱的好处有很多,例如:它对异常数据有更强的鲁棒性,解决了异常数据对建模的干扰;特征数据离散化之后,每个特征数据有单独的权重,为逻辑回归模型引入了非线性,能够提升模型表达能力;分箱还可以将特征的缺失值作为独立一类别带入模型,并且特征离散化之后形成的稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展等等。对于精确的离散化,将数据按照类别划分区间,如果两个相邻的区间具有非常相似的类分布,则这两个区间可以合并,否则他们应当保持分开,而低卡方值表明相邻两个区间内具有相似的类分布。特征数据分箱后计算特征数据的卡方值,卡方值越小,分布越相似,可以合并为一箱。
无论是特征离散化还是特征预测能力评估,在联邦学习特征预处理过程中,需要缺乏特征标签数据的一方将自己的特征数据发送给有特征标签的一方进行联合特征预处理。
现有的大多数联邦学习框架中,一部分方法为满足隐私保护需求在计算中令数据提供方使用公钥加密所有的特征矩阵,然后将密文矩阵发送给数据应用方,数据应用方拿到数据后使用私钥解密进行计算。在大规模数据收集中,这种方法显然会造成巨大的资源损耗和性能下降。另一部分直接传递脱敏数据进行计算,无法保护数据隐私安全,也不符合法律规范,还有一部分参与者自己单独进行训练,将训练结果融合,不能充分地发挥数据地价值。
发明内容
本发明的目的是提出一种新的基于安全多方计算的卡方分箱方法,对于数据精确的离散化,先将数据按照类别划分区间,如果两个相邻的区间具有非常相似的类分布,则这两个区间可以合并,否则他们应当保持分开,而低卡方值表明相邻两个区间内具有相似的类分布。特征数据分箱后计算特征数据的卡方值,卡方值越小,分布越相似,可以合并为一箱。
实现本发明目的的具体技术方案是:
一种基于安全多方计算的卡方分箱方法,包括下述步骤:
步骤1:数据提供方通过同态加密系统生成一对公钥pk和私钥sk,将特征数据X={x0,x1,...,xn-1},id∈[0,n-1]进行分组,将特征数据X中类别相同的数据的id划分为一个区间,共记作s个分组,记作xt,t∈[0,s-1],其中n,s为正整数,并且标记真实分组xt的类别为1,使用公钥pk将该分组类别加密,记作Ex=E(1),得到真实分组信息Groupt(xt,Ex);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110999974.5/2.html,转载请声明来源钻瓜专利网。





