[发明专利]一种基于生成对抗网络的公平增强分类方法在审
申请号: | 202211430163.4 | 申请日: | 2022-11-12 |
公开(公告)号: | CN116186617A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 叶阿勇;陈秋玲 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F18/2415 | 分类号: | G06F18/2415;G06N3/048;G06N3/0475;G06N3/094 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;薛金才 |
地址: | 350108 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 公平 增强 分类 方法 | ||
1.一种基于生成对抗网络的公平增强分类方法,其特征在于,包括以下步骤:
步骤1:对原始数据集进行预处理,得到预处理后的数据集;
步骤2:构建隐含因子数据集:
步骤3:建立增强公平分类的生成对抗网络:
步骤4:合成公平数据以及输出公平分类器。
2.根据权利要求1所述的一种基于生成对抗网络的公平增强分类方法,其特征在于,所述步骤1具体包括:
步骤11:对数据集进行数据清洗,包括缺失值、空值和去冗余处理;
步骤12:对步骤11处理后所得数据集中的分类属性进行独热编码;
步骤13:对步骤11处理后所得数据集中的连续属性进行归一化处理。
3.根据权利要求1所述的一种基于生成对抗网络的公平增强分类方法,其特征在于,所述步骤2具体包括:
步骤21:首先筛选出原始数据集中对标签预测有帮助的属性组;
步骤22:接着根据属性相关性从步骤21的属性组中选择与敏感属性相关性较低的属性组成隐含因子c={a1,a2…an};
步骤23:最后保留隐含因子的维度,将剩余维度由随机噪声z组成,构建隐含因子数据集。
4.根据权利要求1所述的一种基于生成对抗网络的公平增强分类方法,其特征在于,所述步骤3具体包括:
步骤31:构建生成器G和判别器D,然后构建这两个的对抗损失函数V(G,D):
其中,x表示非敏感属性组,y表示数据标签,s表示敏感属性,Preal(x|y,s)表示数据在真实数据集上的概率分布,(x|y,s)~Preal(x|y,s)表示数据(x|y,s)服从概率分布Preal(x|y,s),表示对服从分布Preal(x|y,s)的每个训练数据(x|y,s)计算函数期望;xg表示由生成器合成的假数据,Pg(x|y,s)表示数据在合成数据集上的概率分布,(xg|y,s)~Pg(x|y,s)表示合成数据(xg|y,s)服从概率分布Pg(x|y,s),表示对服从分布Pg(x|y,s)的每个合成数据(xg|y,s)计算函数期望;D(*)表示判别器把*判别为真的概率;
步骤32:构建对抗器A和分类器C,然后构建这两个的对抗损失函数V(C,A):
其中,将s视为二进制,取值为{0,1};yc表示分类器的预测标签,A(*)表示对抗器A把*预测为真实敏感属性s的概率;
步骤33:构建对抗器A和生成器G的对抗损失函数V(G,A):
其中,A(*)表示对抗器A把*预测为真实敏感属性s的概率;
步骤34:构建生成器G和分类器C的协同优化函数L(G,C):
其中,C(*)表示分类器把*预测为正确类标签y的概率;
步骤35:根据生成器G和判别器D的对抗损失函数V(G,D),对抗器A和分类器C的对抗损失函数V(C,A)和对抗器A和生成器G的对抗损失函数V(G,A),构建全局优化目标,即增强公平分类的生成对抗网络:V(G,C,D,A)=V(G,D)+λV(G,A)+μV(C,A)+L(G,A);其中λ和μ为控制V(G,C,D,A)的相对重要参数。
5.根据权利要求1所述的一种基于生成对抗网络的公平增强分类方法,其特征在于,所述步骤4具体包括:
设定最大迭代次数为N、停止迭代阈值为k,用原始数据集和隐含因子数据集迭代训练步骤3中构建的生成对抗网络,直到当前迭代的函数值小于阈值k或达到最大迭代次数N,输出生成的公平数据以及公平分类器。
6.根据权利要求3所述的一种基于生成对抗网络的公平增强分类方法,其特征在于,步骤23中随机噪声z由高斯/正态分布N(0,1)生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211430163.4/1.html,转载请声明来源钻瓜专利网。