[发明专利]基于隐私保护的训练样本生成方法和装置在审
申请号: | 201710552377.1 | 申请日: | 2017-07-07 |
公开(公告)号: | CN109214404A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 王力;赵沛霖;周俊;李小龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练样本 原始样本 向量 隐私保护 转换 方法和装置 随机选取 原始数据 原始向量 二分类 输出 挖掘 | ||
本说明书提供一种基于隐私保护的训练样本生成方法,被挖掘的原始数据包括m个原始样本,每个原始样本包括d维的原始向量x和输出标记值y,m、d为自然数,所述方法包括:生成n个d维的转换向量π,每个转换向量π由随机选取的若干个原始样本的yx之和确定;将所述n个转换向量π作为二分类模型的训练样本。
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种基于隐私保护的训练样本生成方法和装置。
背景技术
随着互联网的发展和普及,各种基于网络进行的活动都在源源不断的产生数据,许多企业、政府甚至个人等都掌握着大量的用户数据。数据挖掘技术能够从大量的数据中发现有价值的知识、模式、规则等信息,为科学研究、商业决策、过程控制等提供辅助支持,成为数据利用的重要方式。
在一些应用场景中,用于挖掘的数据包含了很多敏感信息,例如金融行业的数据、政府部门的数据等。如何将这些敏感信息在数据挖掘的过程中作为隐私保护起来,成为一个越来越受人关注的问题。
发明内容
有鉴于此,本说明书提供一种基于隐私保护的训练样本生成方法,被挖掘的原始数据包括m个原始样本,每个原始样本包括d维的原始向量x和输出标记值y,m、d为自然数,所述方法包括:
生成n个d维的转换向量π,每个转换向量π由随机选取的若干个原始样本的yx之和确定;
将所述n个转换向量π作为二分类模型的训练样本。
本说明书提供的一种基于隐私保护的二分类模型训练方法,包括:
获取n个d维的转换向量π作为训练样本;每个所述转换向量π由随机选取的若干个原始样本的yx之和确定,所述原始样本为原始数据的m个样本之一,每个原始样本包括d维的原始向量x和输出标记值y,m、d为自然数,
基于所述训练样本,对二分类模型进行训练,得到结果模型。
本说明书还提供了一种基于隐私保护的训练样本生成装置,被挖掘的原始数据包括m个原始样本,每个原始样本包括d维的原始向量x和输出标记值y,m、d为自然数,所述装置包括:
转换向量生成单元,用于生成n个d维的转换向量π,每个转换向量π由随机选取的若干个原始样本的yx之和确定;
训练样本生成单元,用于将所述n个转换向量π作为二分类模型的训练样本。
本说明书提供的一种基于隐私保护的二分类模型训练装置,包括:
训练样本获取单元,用于获取n个d维的转换向量π作为训练样本;每个所述转换向量π由随机选取的若干个原始样本的yx之和确定,所述原始样本为原始数据的m个样本之一,每个原始样本包括d维的原始向量x和输出标记值y,m、d为自然数,
模型训练单元,用于基于所述训练样本,对二分类模型进行训练,得到结果模型。
本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述基于隐私保护的训练样本生成方法所述的步骤。
本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述基于隐私保护的二分类模型训练方法所述的步骤。
本说明书提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述基于隐私保护的训练样本生成方法所述的步骤。
本说明书提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述基于隐私保护的模型训练方法所述的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710552377.1/2.html,转载请声明来源钻瓜专利网。