[发明专利]一种基于生成对抗网络的公平增强分类方法在审
申请号: | 202211430163.4 | 申请日: | 2022-11-12 |
公开(公告)号: | CN116186617A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 叶阿勇;陈秋玲 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F18/2415 | 分类号: | G06F18/2415;G06N3/048;G06N3/0475;G06N3/094 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;薛金才 |
地址: | 350108 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 公平 增强 分类 方法 | ||
本发明提供了一种基于生成对抗网络的公平增强分类方法,包括以下步骤:步骤1:对原始数据集进行预处理,得到预处理后的数据集;步骤2:构建隐含因子数据集:步骤3:建立增强公平分类的生成对抗网络:步骤4:合成公平数据以及输出公平分类器。应用本技术方案不仅能够在保证良好数据效用的同时,生成公平的数据,而且能够在保证良好分类效用的同时,实现分类的公平性。
技术领域
本发明涉及数据处理技术领域,特别是一种基于生成对抗网络的公平增强分类方法。
背景技术
在过去的几十年中,随着AI和机器学习的普及以及它们在不同应用中的流行,安全性和公平性约束已成为研究人员和工程师面临的巨大问题。它被用于不同的医学领域、儿童福利系统和自动驾驶汽车。所有这些应用都会对我们的生活产生直接影响,并且考虑到公平性,如果设计不当,可能会损害我们的社会。这些应用程序以及这些AI系统通过其固有的偏见影响我们的日常生活的方式,例如AI聊天机器人、就业匹配以及航班路线,还有广告展示位置算法中存在的偏见。因此,对于研究人员和工程师来说,在对算法或系统进行建模时,必须关注下游应用及其潜在的有害影响。
偏见的预测源于数据或算法中隐藏或忽略的偏见。存在这种社会偏见的原因是由于机器学习模型使用的训练集要么是从现实生活采样而来,要么是模拟真实样本的合成数据。这些数据不同程度的隐含人们对于某些群体的喜好或偏见,在训练时所用的评估指标会让模型放大这些喜好或偏见,导致从这些数据集上训练出来的预测模型产生偏见行为,对不同人群给予不同的预测倾向。
最近,生成性对抗网络(GAN)在模拟真实数据分布和生成与真实数据相似的高质量合成数据方面表现出了令人满意的结果。合成数据能够用于模型训练,解决了数据缺乏这一问题。然而,由于真实数据和合成数据间的高度相似性,若真实数据产生偏见,则基于合成数据的预测分析也会产生偏见。
发明内容
有鉴于此,本发明的目的在于提供一种基于生成对抗网络的公平增强分类方法,不仅能够在保证良好数据效用的同时,生成公平的数据,而且能够在保证良好分类效用的同时,实现分类的公平性。
为实现上述目的,本发明采用如下技术方案:一种基于生成对抗网络的公平增强分类方法,包括以下步骤:
步骤1:对原始数据集进行预处理,得到预处理后的数据集;
步骤2:构建隐含因子数据集:
步骤3:建立增强公平分类的生成对抗网络:
步骤4:合成公平数据以及输出公平分类器。
在一较佳的实施例中,所述步骤1具体包括:
步骤11:对数据集进行数据清洗,包括缺失值、空值和去冗余处理;
步骤12:对步骤11处理后所得数据集中的分类属性进行独热编码;
步骤13:对步骤11处理后所得数据集中的连续属性进行归一化处理。
在一较佳的实施例中,所述步骤2具体包括:
步骤21:首先筛选出原始数据集中对标签预测有帮助的属性组;
步骤22:接着根据属性相关性从步骤21的属性组中选择与敏感属性相关性较低的属性组成隐含因子c={a1,a2…an};
步骤23:最后保留隐含因子的维度,将剩余维度由随机噪声z组成,构建隐含因子数据集。
在一较佳的实施例中,所述步骤3具体包括:
步骤31:构建生成器G和判别器D,然后构建这两个的对抗损失函数V(G,D):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211430163.4/2.html,转载请声明来源钻瓜专利网。