[发明专利]用于全基因组关联的分析的图形模型无效
| 申请号: | 200980134173.X | 申请日: | 2009-06-12 |
| 公开(公告)号: | CN102132275A | 公开(公告)日: | 2011-07-20 |
| 发明(设计)人: | D·E·赫克曼;C·M·卡迪厄;H·康 | 申请(专利权)人: | 微软公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/00 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 潘明婳 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 基因组 关联 分析 图形 模型 | ||
背景
如果诸如生物数据的许多类型的数据是不可交换的或独立同分布的(IID),那么对这种数据中的相关性的搜索会是困难的。例如,一组病毒序列很少是可交换的,因为它们是从系统演化或进化树导出的。换而言之,由于序列在进化树中的位置,有些序列彼此非常相似而与其它序列则不类似。这种系统发生结构可使关联的统计识别混杂。该问题在全基因组关联(GWA)研究中是类似的,其中试图标识与诸如疾病倾向的各种人类表现型相关的单核苷酸多态(SNP)。部分由于DNA序列的群体结构的混杂,有可能无法在GWA研究上再现结果。群体结构可能混杂关联的统计识别的其他领域包括给定多个序列比对对蛋白质中的共同进化的残余的标识以及对调停人体免疫缺陷病毒(HIV)的逃逸突变的人类白细胞抗原(HLA)等位基因的标识。
为个体化医学使用全基因组关联(GWA)研究。在这种研究中,个体的基因类型与各种类型的表现型相关联,所述表现型诸如个人是否有或将得病、个人的疾病是否会复发以及个人对治疗反应良好还是不佳。当前的分析方法的重要缺点在于能力较弱。即,当前的方法难以在所获取的噪声很大的数据中找到信号。典型的数据集包括一到五万个个体、大约一百万个单核苷酸多态(SNP)(即一个DNA的样本)以及一些表现型——尽管这些数字在不断地增长。
随着基因型技术的快速改进,遗传关联研究面临许多挑战。最大的挑战之一是由于群体结构引入假阳性而导致的混杂效应。在零模型下,不期望疾病特性与标记关联,但是来自群体结构的隐混杂可能由于违反标记和疾病在个体上是独立与同分布(iid)的假设而引入伪关联。这个问题被认识到已有十多年并且存在用于纠正由于群体结构而导致的偏差的各种方法。
一般地,当前的实践规定用于纠正群体结构的两种不同的方式。一种是基于仅较小部分的全基因组标记可与疾病特性相关联的假设,在给定大量的全基因组标记的情况下,重新估计统计的零分布——例如,基因组控制和加权排列是广泛使用的技术。这些方法提供了用于纠正群体结构的简单方法,但是在来自群体结构的混杂效果较大时可能遭受较弱能力的问题。第二种方法是将群体结构投影到低维度空间上,并接着测试所投影的数据之间的关联。广泛使用的一个这样的方法是EIGENSTRAT,其可以被扩展到数百万SNP。这种方法可以有效地纠正不同的子群体及其混合物引入的伪关联。
然而,对于涉及家庭相关性和多级群体结构的更为复杂和神秘的相关性,它们仅部分地捕捉夸大的假阳性,由此遭受到残余混杂的问题。近来,提出了可以通过合并比固定维度向量更为一般的模型以表示群体结构和遗传相关性来极大地改进对群体结构的纠正。
当前的实践没有充分利用提供用于在计算上高效的、强大的和直观的分析方法的图形模型。当部署时图形模型可以从表示数据的群体结构——即从DNA的遗传得到的数据的结构的能力到得出它们的力量。
从上述可以理解存在改进现有实现的缺点的系统和方法。
概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。
此处所述的主题便于标识全基因组关联(GWA)研究中的高密度基因型标记和表现型之间的关联。在说明性实现中,数据相关性环境包括群体结构引擎和指示群体结构引擎处理表示基因型和表现型数据的数据以依照部署至少一个观察图形模型和可选地从观察模型导出的群体结构子模型的基于所选的图形模型的数据相关性范例生成相关的基因型/表现型数据(例如预测值变量(例如单核苷酸多态-SNP)和目标变量(例如表现型)之间的关联的标识)的至少一个指令集。
在说明性操作中,基因型/表现型数据可以由示例性群体结构引擎接收以用于依照示例性指令集和基于所选的图形模型的数据相关性范例来处理。在说明性操作中,依照基于所选的图形模型的数据相关性范例在操作上开发群体结构子模型。说明性地,可以单独或结合SNP数据来使用群体结构子模型以预测表现型用于GWA研究。
以下描述和附图详细阐明了所要求保护的主题的某些说明性方面。然而,这些方面仅指示了可采用所要求保护的主题的各种方法中的几种,且所要求保护的主题旨在包括所有这些方面及其等效方面。
附图简述
下文参考附图详细地描述的本发明的各实施例,其形成了本发明的一部分并且通过引用包含于此,其中:
图1是依照此处所述的系统和方法用于表现型预测的示例性图形模型的一个示例的框图。
图2是依照此处所述的系统和方法的群体结构子模型的一个或多个组件的交互的一个示例的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980134173.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:激光材料移除方法和设备
- 下一篇:反射型液晶显示装置





