[发明专利]基于加密算法的模型构建方法及相关设备在审
| 申请号: | 201911199932.2 | 申请日: | 2019-11-29 |
| 公开(公告)号: | CN110969261A | 公开(公告)日: | 2020-04-07 |
| 发明(设计)人: | 张亚泽;狄潇然;王志恒;田林;石慧彪 | 申请(专利权)人: | 中国银行股份有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
| 地址: | 100818 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 加密算法 模型 构建 方法 相关 设备 | ||
本发明提供了一种基于加密算法的模型构建方法及相关设备,涉及机器学习技术领域,通过获取原始数据集,原始数据集包含多个原始数据,每个原始数据包含多维特征;确定原始数据集对应的数据分布特性,数据分布特性表征各个原始数据中每一维特征的分布状况;依据数据分布特性,确定原始数据集对应的映射规则;对原始数据集中的各个原始数据进行预处理,并应用映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;应用预先设置的全同态加密算法对各个训练数据进行加密;应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。能够避免密文膨胀的缺陷,提升模型的训练效率。
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于加密算法的模型构建方法及相关设备。
背景技术
随着科学技术的快速发展,机器学习也越来越广泛的应用在人们的生活中的方方面面,例如语音识别、面部识别等等,给人们带来了极大的便利,然而,在进行机器学习模型训练过程中,往往会应用到用户的数据,容易导致用户的隐私泄露,用户数据的隐私问题成为人们关注的重点。
现有技术中,为了保护用户数据的隐私,在利用用户数据进行机器学习模型训练的过程中,往往应采用全同态加密算法对用户数据进行加密,应用全同态加密算法对数据进行加密,不仅能够保障用户数据的隐私,还能保持数据的分布特性,使得密文数据能够达到明文数据相同的模型训练效果。然而,采用全同态加密算法对用户数据进行加密后,后续对密文数据进行处理过程中,会出现密文膨胀的缺陷,进而导致模型的训练效果差。
发明内容
本发明所要解决的技术问题是提供一种基于加密算法的模型构建方法,能够避免密文膨胀的缺陷,提升模型的训练效率。
本发明还提供了一种基于加密算法的模型构建装置,用以保证上述方法在实际中的实现及应用。
一种基于加密算法的模型构建方法,包括:
获取原始数据集,所述原始数据集包含多个原始数据,每个所述原始数据包含多维特征;
确定所述原始数据集对应的数据分布特性,所述数据分布特性表征各个所述原始数据中每一维特征的分布状况;
依据所述数据分布特性,确定所述原始数据集对应的映射规则;
对所述原始数据集中的各个原始数据进行预处理,并应用所述映射规则对预处理后的各个原始数据进行映射,得到各个原始数据对应的训练数据;
应用预先设置的全同态加密算法对各个所述训练数据进行加密;
应用加密后的训练数据对初始模型进行训练,得到目标模型,所述初始模型为待训练模型。
上述的方法,可选的,所述确定所述原始数据集对应的数据分布特性,包括:
对于每个所述原始数据,计算所述原始数据中每一维特征的集中状况参数以及离散程度参数,所述集中状况参数包括中位数和众数,所述离散程度参数包括方差和标准差;
依据每个所述原始数据的集中状况参数以及离散程度参数,确定所述原始数据集的数据分布特性。
上述的方法,可选的,所述依据所述数据分布特性,确定所述原始数据集对应的映射规则,包括:
依据所述数据分布特性,确定所述原始数据集中各个原始数据中每一维度对应的数据变换方法,所述变换方法为线性变换或非线性变换;
依据各个维度的数据变换方法,组成所述原始数据集对应的映射规则。
上述的方法,可选的,所述对所述原始数据集中的各个原始数据进行预处理,包括:
对于每个所述原始数据,判断所述原始数据中的每一维特征是否存在异常值,若存在,则将所述异常值进行清除;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911199932.2/2.html,转载请声明来源钻瓜专利网。





