[发明专利]一种基于安全多方计算的卡方分箱方法有效
| 申请号: | 202110999974.5 | 申请日: | 2021-08-27 |
| 公开(公告)号: | CN113688354B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 何道敬;孙黎彤;杜润萌;张民;张熙;廖清 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06F17/18 | 分类号: | G06F17/18;G06F21/60;G06F21/62;G06N20/20 |
| 代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 安全 多方 计算 卡方分箱 方法 | ||
1.一种基于安全多方计算的卡方分箱方法,其特征在于,包括下述步骤:
步骤1:数据提供方通过同态加密系统生成一对公钥pk和私钥sk,将特征数据X={x0,x1,...,xn-1},id∈[0,n-1]进行分组,将特征数据X中类别相同的数据的id划分为一个区间,共记作s个分组,记作xt,t∈[0,s-1],n,s为正整数,并且标记真实分组xt的类别为1,使用公钥pk将该分组类别加密,记作Ex=E(1),得到真实分组信息Groupt(xt,Ex);
步骤2:构造虚假分组,将特征数据X的id随机划分s个分组区间,分组区间数目与真实分组个数保持一致,将区间记作xv,v∈[0,s-1],并且标记虚假分组的类别0,使用公钥pk将分组类别加密记作Ex=E(0),得到虚假分组信息为Groupv(xv,Ex);
步骤3:将真实分组信息和虚假分组信息按行连接,并且按行乱序,得到分组信息GroupX,数据提供方将分组信息GroupX(xi,Ex)发送给数据应用方;
步骤4:数据应用方将分组信息GroupX(xi,Ex)与标签数据Y={y0,y1,...,yi,...,yn-1},id∈[0,n-1]的id映射,得出每个分组区间xi对应的标签数据yi的值,将每个分组区间xi对应的标签数据yi的值相加,得出该分组区间内响应样本个数Groupy,根据该分组区间内数据总数Groups,计算得出该分组区间未响应样本的个数Groupn=Groups-Groupy,并且将所有分组区间的响应样本个数Groupy,未响应样本个数Groupn,样本总数Groups,以及分组区间对应的分组类别标记Ex发送给数据提供方;
步骤5:数据提供方使用私钥将分组类别标记Ex解密,得到解密后分组类别标记Dx,其中Dx=1则为真实分组,Dx=0则为虚假分组,删除虚假分组信息;
步骤6:数据提供方根据真实分组区间对应的响应样本个数Groupy,未响应样本个数Groupn,样本总数Groups,计算第i,i∈[0,2s-1]个分组第j个类别的期望样本个数Eij,此处j∈[0,2)表示响应样本和未响应样本两类;根据相邻两个真实分组的期望样本个数Eij,相邻两个真实分组的样本个数Aij,计算得出相邻两个真实分组的卡方值χ2;
步骤7:数据提供方设置分箱数目限制,根据相邻分组的卡方值,卡方值最小的两个分组合并,合并后重新计算相邻分组的卡方值,直到分箱数目达到分箱数目限制后停止合并,得出卡方分箱结果。
2.根据权利要求1所述的一种基于安全多方计算的卡方分箱方法,其特征在于,步骤1所述真实分组xt,其中只包括特征数据的id,id∈[0,n-1],不包含特征数据的实际值,避免特征数据的实际值泄露。
3.根据权利要求1所述的一种基于安全多方计算的卡方分箱方法,其特征在于,步骤2所述将特征数据X的id随机划分s个分组区间,目的是构造虚假分组,将虚假分组混入真实分组中,保护真实分组信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110999974.5/1.html,转载请声明来源钻瓜专利网。





