[发明专利]基于多变量高斯分布的缺失eQTL统计量推断方法在审
申请号: | 202110997409.5 | 申请日: | 2021-08-27 |
公开(公告)号: | CN113643760A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 汪涛;彭佳杰;尚学群;王亚东;尹泉伟;汪洋;张赞 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/20;G16B5/00 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 崔瑞迎 |
地址: | 710129 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多变 量高斯 分布 缺失 eqtl 统计 推断 方法 | ||
本发明属于基因组数据处理技术领域,具体涉及基于多变量高斯分布的缺失eQTL统计量推断方法。利用多变量高斯分布对已知eQTL统计量和缺失eQTL统计量进行建模,并基于变异之间的连锁不平衡相关关系,推断缺失eQTL统计量。该方法通过构建基因组局部动态连锁不平衡关系矩阵,有效避免连锁不平衡关系重复计算,通过全基因组片段化处理使eQTL数据推断适用于并行分析,降低缺失eQTL数据推断的时间开销。
技术领域
本发明属于基因组数据处理技术领域,具体涉及基于多变量高斯分布的缺失eQTL统计量推断方法。
背景技术
随着eQTL总结数据(Summary data)不断涌现在公共平台上,如GTEx、UKBEC、eQTLGen、sceQTLGen等,其已经被广泛应用于多种生物信息学分析中,如整合分析、GWAS精细比对(Fine mapping)、孟德尔随机化预测疾病基因、构建eQTL网络等。但由于数据产生来源在研究目的、实验技术以及分析方法等方面存在差异,导致eQTL统计量缺失的情况十分普遍。eQTL统计量缺失主要由以下原因导致:
由于不同研究中使用的实验技术不同(如芯片技术或是新一代测序技术)、原始数据预处理方法不同(如数据处理所选择的次要等位基因频率(MAF)阈值、参考人群基因组、基因型推断方法等)等,导致变异基因型数据缺失。
发明内容
针对不同数据集均普遍存在变异与基因之间关联统计量的缺失,严重影响下游分析的统计效能和准确性的技术问题,本发明提供了基于多变量高斯分布的缺失eQTL统计量推断方法。
本发明的技术方案如下:
基于多变量高斯分布的缺失eQTL统计量推断方法,该方法包括以下步骤:
(1)获取eQTL总结统计量数据,数据的每个条目至少包括染色体编号、基因标识符、基因组位置、参考等位基因、变异的替代等位基因和Z值统计量,使用基因组位置、参考等位基因和替代等位基因从参考基因组数据中唯一标识变异;其中Z值统计量为参考相同类型的等位基因对基因表达的影响下的结果;
(2)基因组局部区域缺失eQTL统计量推断,具体步骤为:
21)假设基因G转录起始位点上下游1Mbp范围LD区间内存在n+m个变异,其中m个变异与基因G eQTL的Z值统计量已知,表示为Zk|G=(y1,...,ym)T,n个变异与基因G eQTL的Z值统计量缺失,表示为Zu|G=(x1,...,xn)T;LD区间内全部的SNPs与基因G的Z值统计量表示为Z|G=(x1,…,xn,y1,…,ym)T;
22)利用多变量高斯分布对Z|G进行建模,即其中在零假设下,即SNP和组学特征之间不存在相关性,μ=0,长度为n+m;∑表示n+m个SNPs之间的协方差矩阵,其中∑i,j代表SNPi和SNPj之间的LD相关系数r值;
23)将Zk|G和Zu|G的均值期望分别表示为E(Zu|G)=μu=0和E(Zk|G)=μk=0之后,得到μ=(μu,μk)T;将协方差矩阵∑根据两组变异类型划分为四个子矩阵,如公式(3)所示,其中
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110997409.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种镁合金环件的挤轧复合成形方法
- 下一篇:圆管切割仿形工装