[发明专利]一种基于生成对抗网络的公平增强分类方法在审

申请号：	202211430163.4	申请日：	2022-11-12
公开（公告）号：	CN116186617A	公开（公告）日：	2023-05-30
发明（设计）人：	叶阿勇;陈秋玲	申请（专利权）人：	福建师范大学
主分类号：	G06F18/2415	分类号：	G06F18/2415;G06N3/048;G06N3/0475;G06N3/094
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊;薛金才
地址：	350108 福建***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生成对抗网络公平增强分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于生成对抗网络的公平增强分类方法，包括以下步骤：步骤1:对原始数据集进行预处理，得到预处理后的数据集；步骤2:构建隐含因子数据集：步骤3:建立增强公平分类的生成对抗网络：步骤4:合成公平数据以及输出公平分类器。应用本技术方案不仅能够在保证良好数据效用的同时，生成公平的数据，而且能够在保证良好分类效用的同时，实现分类的公平性。

技术领域

本发明涉及数据处理技术领域，特别是一种基于生成对抗网络的公平增强分类方法。

背景技术

在过去的几十年中，随着AI和机器学习的普及以及它们在不同应用中的流行，安全性和公平性约束已成为研究人员和工程师面临的巨大问题。它被用于不同的医学领域、儿童福利系统和自动驾驶汽车。所有这些应用都会对我们的生活产生直接影响，并且考虑到公平性，如果设计不当，可能会损害我们的社会。这些应用程序以及这些AI系统通过其固有的偏见影响我们的日常生活的方式，例如AI聊天机器人、就业匹配以及航班路线，还有广告展示位置算法中存在的偏见。因此，对于研究人员和工程师来说，在对算法或系统进行建模时，必须关注下游应用及其潜在的有害影响。

偏见的预测源于数据或算法中隐藏或忽略的偏见。存在这种社会偏见的原因是由于机器学习模型使用的训练集要么是从现实生活采样而来，要么是模拟真实样本的合成数据。这些数据不同程度的隐含人们对于某些群体的喜好或偏见，在训练时所用的评估指标会让模型放大这些喜好或偏见，导致从这些数据集上训练出来的预测模型产生偏见行为，对不同人群给予不同的预测倾向。

最近，生成性对抗网络(GAN)在模拟真实数据分布和生成与真实数据相似的高质量合成数据方面表现出了令人满意的结果。合成数据能够用于模型训练，解决了数据缺乏这一问题。然而，由于真实数据和合成数据间的高度相似性，若真实数据产生偏见，则基于合成数据的预测分析也会产生偏见。

发明内容

有鉴于此，本发明的目的在于提供一种基于生成对抗网络的公平增强分类方法，不仅能够在保证良好数据效用的同时，生成公平的数据，而且能够在保证良好分类效用的同时，实现分类的公平性。

为实现上述目的，本发明采用如下技术方案：一种基于生成对抗网络的公平增强分类方法，包括以下步骤：

步骤1:对原始数据集进行预处理，得到预处理后的数据集；

步骤2:构建隐含因子数据集：

步骤3:建立增强公平分类的生成对抗网络：

步骤4:合成公平数据以及输出公平分类器。

在一较佳的实施例中，所述步骤1具体包括：

步骤11:对数据集进行数据清洗，包括缺失值、空值和去冗余处理；

步骤12:对步骤11处理后所得数据集中的分类属性进行独热编码；

步骤13:对步骤11处理后所得数据集中的连续属性进行归一化处理。