[发明专利]基于加密算法的模型构建方法及相关设备在审

申请号：	201911199932.2	申请日：	2019-11-29
公开（公告）号：	CN110969261A	公开（公告）日：	2020-04-07
发明（设计）人：	张亚泽;狄潇然;王志恒;田林;石慧彪	申请（专利权）人：	中国银行股份有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	李伟
地址：	100818 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于加密算法模型构建方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于加密算法的模型构建方法及相关设备，涉及机器学习技术领域，通过获取原始数据集，原始数据集包含多个原始数据，每个原始数据包含多维特征；确定原始数据集对应的数据分布特性，数据分布特性表征各个原始数据中每一维特征的分布状况；依据数据分布特性，确定原始数据集对应的映射规则；对原始数据集中的各个原始数据进行预处理，并应用映射规则对预处理后的各个原始数据进行映射，得到各个原始数据对应的训练数据；应用预先设置的全同态加密算法对各个训练数据进行加密；应用加密后的训练数据对初始模型进行训练，得到目标模型，所述初始模型为待训练模型。能够避免密文膨胀的缺陷，提升模型的训练效率。

技术领域

本发明涉及机器学习技术领域，特别涉及一种基于加密算法的模型构建方法及相关设备。

背景技术

随着科学技术的快速发展，机器学习也越来越广泛的应用在人们的生活中的方方面面，例如语音识别、面部识别等等，给人们带来了极大的便利，然而，在进行机器学习模型训练过程中，往往会应用到用户的数据，容易导致用户的隐私泄露，用户数据的隐私问题成为人们关注的重点。

现有技术中，为了保护用户数据的隐私，在利用用户数据进行机器学习模型训练的过程中，往往应采用全同态加密算法对用户数据进行加密，应用全同态加密算法对数据进行加密，不仅能够保障用户数据的隐私，还能保持数据的分布特性，使得密文数据能够达到明文数据相同的模型训练效果。然而，采用全同态加密算法对用户数据进行加密后，后续对密文数据进行处理过程中，会出现密文膨胀的缺陷，进而导致模型的训练效果差。

发明内容

本发明所要解决的技术问题是提供一种基于加密算法的模型构建方法，能够避免密文膨胀的缺陷，提升模型的训练效率。

本发明还提供了一种基于加密算法的模型构建装置，用以保证上述方法在实际中的实现及应用。

一种基于加密算法的模型构建方法，包括：

获取原始数据集，所述原始数据集包含多个原始数据，每个所述原始数据包含多维特征；

确定所述原始数据集对应的数据分布特性，所述数据分布特性表征各个所述原始数据中每一维特征的分布状况；

依据所述数据分布特性，确定所述原始数据集对应的映射规则；

对所述原始数据集中的各个原始数据进行预处理，并应用所述映射规则对预处理后的各个原始数据进行映射，得到各个原始数据对应的训练数据；

应用预先设置的全同态加密算法对各个所述训练数据进行加密；

应用加密后的训练数据对初始模型进行训练，得到目标模型，所述初始模型为待训练模型。

上述的方法，可选的，所述确定所述原始数据集对应的数据分布特性，包括：

对于每个所述原始数据，计算所述原始数据中每一维特征的集中状况参数以及离散程度参数，所述集中状况参数包括中位数和众数，所述离散程度参数包括方差和标准差；