[发明专利]一种基于隐私保护的跨设备个体识别方法及装置有效
申请号: | 201811314220.6 | 申请日: | 2018-11-06 |
公开(公告)号: | CN109697454B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 邓皓文;张诚;易岚;陈宇新 | 申请(专利权)人: | 邓皓文;张诚;易岚;陈宇新 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 200433 上海市杨浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐私 保护 设备 个体 识别 方法 装置 | ||
1.一种基于隐私保护的跨设备个体识别方法,其特征在于,包括:
根据各用户识别码在第一设备的第一脱敏数据集中识别对应的第一账号,在第二设备的第二脱敏数据集中识别对应的第二账号;
根据识别的第一账号和识别的第二账号生成第一跨设备账号样本,得到第一样本集,包括:将识别的各用户标识对应的第一账号和第二账号对应作为部分第一跨设备账号样本,并添加第一标识;依次将所述部分第一跨设备账号样本中的任意两个所含有的第一账号与第二账号交叉对应作为另一部分第一跨设备账号样本,并添加第二标识;将添加了所述第一标识的第一跨设备账号样本与添加了所述第二标识的第一跨设备账号样本随机打乱;分离出打乱的第一标识和第二标识作为标识集合,并将打乱的第一跨设备账号样本作为第一样本集;
统计所述第一样本集的第一变量信息,包括:根据所述第一样本集中的各第一账号在所述第一脱敏数据集中读取对应的第一记录数据;根据所述第一样本集中的各第二账号在所述第二脱敏数据集中读取对应的第二记录数据;分析各第一跨设备账号样本对应的第一记录数据和第二记录数据,得到对应的各共有变量集;对所述第一记录数据和所述第二记录数据中的定性变量,以及所述共有变量集中的各变量进行统一数字化编码;其中,所述定性变量包括商品种类、店铺名称、地理位置和网络信息中的一种或多种;对各第一跨设备账号样本对应的统一数字化编码后的第一记录数据和第二记录数据分别进行聚合统计,得到对应的第一聚合统计量和第二聚合统计量;其中,所述第一聚合统计量包括第一连续变量和第一离散变量,所述第二聚合统计量包括第二连续变量和第二离散变量;根据所述第一变量信息计算第一特征值,包括:计算所述共有变量集中各共有变量的第一对比量;根据所述第一样本集中各样本对应的第一连续变量和第二连续变量计算第二对比量,包括:在所述第一样本集中读取第一预设数量的样本,作为第一样本子集;将所述第一样本子集中各样本对应的第一连续变量和第二连续变量随机组合得到多个连续变量组,确定各连续变量组的重要性;根据所述各连续变量组的重要性,在所述各连续变量组中筛选出第一预设比例的重要连续变量组,作为第一重要变量组;在所述第一样本集中各样本对应的第一连续变量和第二连续变量中筛选出所述第一重要变量组,计算筛选的各第一重要变量组中两个连续变量的对比量,并作为第二对比量;根据所述第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量;
根据所述第一样本集、所述第一变量信息、所述第一特征值生成训练集,对所述训练集进行机器学习,得到预测模型;
根据未识别的所述第一脱敏数据集中的各第一账号和未识别的所述第二脱敏数据集中的各第二账号,生成第二跨设备账号样本,得到预测集;
使用所述预测模型对所述预测集进行预测,得到第二跨设备账号组合是否为同一用户的预测结果。
2.根据权利要求1所述的方法,其特征在于,所述确定各连续变量组的重要性,包括:
确定满足第一预设条件的连续变量组;
对满足所述第一预设条件的各连续变量组进行预设运算,将运算结果保存至连续变量池;
对所述连续变量池中的各运算结果及所述标识集合进行机器学习,得到所述各连续变量组的重要性。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一样本集中各样本对应的第一离散变量和第二离散变量计算第三对比量,包括:
将所述第一样本子集中各样本对应的第一离散变量和第二离散变量随机组合得到多个离散变量组,确定各离散变量组的重要性;
根据所述各离散变量组的重要性,在所述各离散变量组中筛选出第二预设比例的重要离散变量组,作为第二重要变量组;
在所述第一样本集中各样本对应的第一离散变量和第二离散变量中筛选出所述第二重要变量组,计算筛选的各第二重要变量组中两个离散变量的对比量,并作为第三对比量。
4.根据权利要求3所述的方法,其特征在于,所述确定各离散变量组的重要性,包括:
计算所述第一样本子集中各样本对应的各离散变量组中两个离散变量的对比量,并添加至离散变量池;
对所述离散变量池中的各对比量及所述标识集合进行机器学习,得到所述各离散变量组的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邓皓文;张诚;易岚;陈宇新,未经邓皓文;张诚;易岚;陈宇新许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811314220.6/1.html,转载请声明来源钻瓜专利网。