[发明专利]用于分析基因数据的计算机执行方法和装置在审
| 申请号: | 202080061338.1 | 申请日: | 2020-08-28 |
| 公开(公告)号: | CN114341990A | 公开(公告)日: | 2022-04-12 |
| 发明(设计)人: | 文森特·雅恩·玛丽·普雷格诺;R·摩尔;E·M·L·克拉波尔 | 申请(专利权)人: | 基因组学公开有限公司 |
| 主分类号: | G16B40/20 | 分类号: | G16B40/20 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘文娜;黄健 |
| 地址: | 英国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 分析 基因 数据 计算机 执行 方法 装置 | ||
本公开涉及分析基因数据。在一种布置中,一种方法对输入数据进行操作,该输入数据包括一个或多个包括目标表型的表型与多个基因变体之间的关联强度。将精细映射算法应用于输入数据的全部或子集以识别一种或多种独立的表型‑变体关联。为每个关联识别一个或多个精细映射变体的集。在输入数据和精细映射变体的集的基础上计算精细映射预测模型。从输入数据中减去精细映射变体的集对目标表型的效应以获得残余关联数据。将机器学习算法应用于残余关联数据以识别目标表型和多个基因变体之间的进一步预测相关性。
本发明涉及分析关于生物体的基因和表型数据以获得关于该生物体的信息,特别是在能够获得对于感兴趣表型的改进的多基因风险评分(polygenic risk score,PRS)的背景下。
PRS是生物体的遗传DNA对其可能表现出的表型的贡献的定量总结。PRS可能包括与感兴趣表型相关(直接地或间接地)的所有DNA变体,或者如果它们与生物体生物学的特定方面(包括细胞、组织或其他生物单位、机制或过程)更相关,则可以使用其组成部分。PRS可以直接使用,或作为关于该生物体的多个测量结果或记录的一部分,以推断其过去、当前和未来生物学的方面。在改善人类健康和医疗保健的背景下,PRS具有一系列实际用途,包括但不限于:预测疾病或表型发展的风险、预测表型发病年龄、预测疾病严重程度、预测疾病亚型、预测对治疗的反应、为个体选择适当的筛查策略、选择适当的药物干预和为其他预测算法设置先验概率。PRS可以直接用作人工智能和机器学习方法的应用中的输入源,以根据其他高维输入数据(例如成像)进行预测或分类。它们可用于帮助训练这些算法,例如识别基于非基因数据的预测测量。除了在对个体做出预测性说明方面具有实用性外,它们还可用于通过计算大量个体的PRS,然后基于PRS对个体进行分组来识别个体群组(包括但不限于上述应用)。PRS还可以帮助选择个体进行临床试验,例如通过招募更有可能发展相关疾病或表型的个体来优化试验设计,从而增强对新治疗的功效的评估。PRS携带有关他们计算的个体的信息,也包括他们的亲属(其分享这些个体遗传的DNA的一部分)的信息。有关个体DNA对其表型的影响的信息可以源自对携带任何特定DNA变体组合的潜在影响的任何相关评估。在下文中,我们专注于对源自基因关联研究(genetic association studies,GAS)的近期大量信息的分析。这些研究系统地评估了DNA变体对表型的基因基础的潜在贡献。
自2000年代中期(mid-2000s)以来,已经在数以百万计的个体中对成千上万(主要是人)的表型进行了GAS(通常是全基因组关联研究:GWAS,或靶向单个变体,或基因组区域中的变体的关联研究,或限于基因组特定区域的GWAS),从而在基因型和表型之间产生数十亿的潜在联系。然后通常将得到的原始数据简化以产生汇总统计数据。对于每个基因变体(不论是插补的还是观察到的),GAS汇总统计数据由基因变体对GAS表型的推断效应值和推断效应值的标准误差组成。在其它情况下,由研究中个体的完整基因概况和关于其表型的信息组成的个体水平数据可直接利用。然而,由于对个体数据的隐私的要求,个体水平数据通常不太广泛地利用。
在下文中,我们将表型称为与单个研究同义。然而,非常常见的情况是数据可从基于相同或相似表型的多个不同研究获得,或从测量多个不同表型的单个群组获得。
PRS由大量基因变体的效应的聚集体组成,通常每个基因变体具有小的个体效应,以构建感兴趣特征的综合预测因子。包括在这种评分中的变体可以是“因果变体”,意思是变体直接影响特征(弱的,但直接的),或“标记变体”,这意味着它们与其它未知的因果变体强烈相关,但标记变体本身对表型没有直接效应。
PRS可以使用个体水平数据或汇总统计数据来计算。PRS构建策略正在扩展,但构建精确PRS的公认通用方法包括通过研究最佳捕获潜在生物关联的变体的组合对所有关联区域中的信号进行去卷积。该过程为每个关联分配概率权重给每个变体,从而描述哪个或哪些变体可能是直接因果的。该过程被称为“精细映射(fine-mapping)”,并且先前已经提出了数种策略来实现该任务(参见例如Benner等,Bioinformatics 2016,15;32(10):1493-1501)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于基因组学公开有限公司,未经基因组学公开有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080061338.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用单点登录认证来同步数据仓库权限
- 下一篇:超薄玻璃的离子交换工艺
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





