[发明专利]对基因组数据进行匿名化的方法在审
| 申请号: | 202180074039.6 | 申请日: | 2021-10-22 |
| 公开(公告)号: | CN116438604A | 公开(公告)日: | 2023-07-14 |
| 发明(设计)人: | T·许尔森;D·普莱泰亚 | 申请(专利权)人: | 皇家飞利浦有限公司 |
| 主分类号: | G16B50/40 | 分类号: | G16B50/40 |
| 代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘兆君 |
| 地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基因组 数据 进行 匿名 方法 | ||
一些实施例针对用于对基因组数据集进行匿名化的方法。所述方法包括接收(410)基因组数据集并且获得(420)基因组数据集的至少一个表型信息单核苷酸多态性(SNP)的表型概率和群体中表现出相应表型特征的比例。根据所获得的表型概率和所获得的群体中表现出表型特征的比例,基于所述基因组数据集计算重新识别风险评分(430)。如果所述重新识别风险评分不满足阈值风险准则,则通过选择(450)表型信息性SNP并屏蔽(460)所选择表型信息性SNP来对所述基因组数据集进行匿名化,并且重新计算所述重新识别风险评分。如果所述重新识别风险评分满足阈值风险准则,则输出所述匿名基因组数据集(470)。
技术领域
当前公开的主题涉及用于对基因组数据集进行匿名化的方法和相应的用于对基因组数据集进行匿名化的系统。当前公开的主题还涉及计算机可读介质。
背景技术
全基因组测序变得越来越便宜,像23andMe和AncestryDNA这样的服务可以以100美元左右的价格对数十万个SNP进行测序。然而,随着越来越多的基因组信息可用,人们对隐私和安全的担忧也在增加。对手越来越多地能够以各种方式结合基因型和表型信息来对基因组数据库进行去匿名化。例如,识别攻击是一种攻击,在这种攻击中,对手试图(在多个基因型中)识别与给定表型相对应的基因型。另一种去匿名化攻击是完美匹配攻击,对手试图将多个表型与其相应的基因型相匹配。基于全基因组测序数据,对手也可以使用统计模型来预测表型特征。由于当前基因组学的进步,使用基因组数据来识别对象的风险正在迅速增加。
准识别符,也称为间接识别符,是数据集中的如下的字段,其可以相互组合使用以识别个体。示例包括性别、邮政编码、出生日期、职业和收入。虽然有许多人具有相同的性别、出生日期或邮政编码,但任何一个人的这些组合都可能是独一无二的,特别是如果该人居住在人口稀少的农村地区。间接识别符的示例包括表型特征,例如头发颜色和眼睛颜色等。
目前,全基因组序列可以很容易地与表型特征联系起来,从而可以找出眼睛颜色、头发颜色、肤色、血型等,并且随后识别对象。随着基因组研究的进展,这个问题将会恶化。通常,用户和研究人员会选择以下两种选择之一:保持所有基因组信息完整,从而冒着侵犯隐私的风险,或者从数据集中删除所有潜在的可识别信息,这会限制数据的实用性。
已公布的美国专利申请US 2020/0035332 A1描述了用于对遗传数据进行匿名化的方法和系统。其中描述的方法和系统识别遗传数据中的祖先识别标记(AIM)区域。遗传数据的AIM区域包括与属于特定血统的患者群体相关联的单核苷酸多态性(SNP)等位基因。不包含与特定疾病相关的基因变异的AIM区域可能会被掩蔽或从遗传数据中删除。
现有技术的一个问题是不能保证得到的遗传数据充分匿名。在某些情况下,仅仅掩蔽或移除没有临床相关数据的AIM区域可能仍会产生可以重新识别人的遗传数据集。此外,现有技术的方法涉及去除可能以某种至今未知的方式贡献于特定疾病的数据,这意味着有用信息可能会丢失。
从遗传数据集中删除更多数据会增加丢失有价值和相关信息的风险,从而降低数据的有用性,但在遗传数据集中保留更多数据会增加从其遗传数据集中重新识别个体的风险。因此,能够确保遗传数据集充分匿名化,同时为研究等应用保留尽可能多的信息是有好处的。因此,量化重新识别的风险并确保可以从匿名基因组数据集中重新识别个人的风险可以提高患者隐私、安全性和经匿名化的基因组数据集中研究人员可用的信息量。
发明内容
保留尽可能多的基因组数据以供研究人员访问,同时保护其数据被使用的个体的隐私和安全将是有利的。用于对基因组数据集进行匿名化的系统和计算机实施的方法在本文中阐述并要求保护。所述系统和计算机实施的方法旨在解决这些问题和其他问题。
现有的基因组数据准备方法要么从基因组数据集中删除重要的研究信息,例如通过删除与可见表型特征有关的所有基因组数据,而不管所述基因组数据是否也与感兴趣疾病相关,从而减少了可以从对其的分析中获得知识的量,要么保留过多的个体的识别信息,从而面临安全和隐私泄露的风险。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180074039.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





