[发明专利]一种基于二代测序的冠心病遗传风险评估方法有效
| 申请号: | 201510556934.8 | 申请日: | 2015-09-06 |
| 公开(公告)号: | CN105279369A | 公开(公告)日: | 2016-01-27 |
| 发明(设计)人: | 张鑫磊;朱文杰;袁骁 | 申请(专利权)人: | 苏州协云和创生物科技有限公司 |
| 主分类号: | G06F19/00 | 分类号: | G06F19/00 |
| 代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 范晴 |
| 地址: | 215123 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 二代 冠心病 遗传 风险 评估 方法 | ||
技术领域
本发明涉及生物技术领域,具体涉及分子生物学领域,一种基于二代测序的冠心病风险评估方法。
背景技术
通过基因组测序技术预测疾病风险是基因组大数据时代的重要科学研究方向之一,也为个性化健康管理提供了一种策略。过去十年,高通量分子检测技术,包括表达谱微芯片和SNP分型芯片,尤其是全基因组关联技术的发展,针对人类常见的复杂疾病已经发现了很多疾病风险位点,这些知识为基于个人基因组测序预测疾病风险提供了一种可能。目前,基于二代测序进行疾病风险预测的大致流程如下:首先针对特定疾病建立风险基因变异和疾病风险的关系;其次针对该疾病的风险基因信息建立疾病风险评估模型;然后仅针对风险基因进行靶向测序,得到个体基因序列信息;最后将序列信息中的变异信息输入到风险评估模型中获得疾病风险。因此,疾病风险预测中的两个关键点是建立基因与疾病的关系和疾病风险评估模型。
人类的基因组是研究的比较多的物种基因组之一,已经发现了很多疾病相关基因,常见的人类疾病数据库有OMIM、HMGD、PheGenI以及COSSMIC等。尽管这些数据库收集了大量的疾病相关基因,但是这些信息来源多样,包含着大量的噪音,不能直接用于疾病风险的预测,需要进行严密的过滤。常用的过滤手段如下:P值过滤、风险基因在独立研究中重现的次数、样本量、是否有直接的实验证据和在基因在相互作用网络中的拓扑属性等。所有的这些过滤手段,保证了风险基因指示疾病风险的能力。
确定了疾病风险基因之后,需要建立疾病风险预测模型。总体来说,风险预测模型是在已经选定的风险基因和疾病的状态之间建立某种函数关系。疾病的状态通常分为疾病和正常两种状态,分别对应1和0,是风险评价模型的因变量,而风险基因则作为该模型的自变量。函数方程的建立需要大量的训练样本基因组信息作为支撑。常见的函数模型有两种,分别是逻辑回归(LogisticRegression)和支持向量机(SupportVectorMachine)。尽管两者广泛应用在疾病风险预测中。但是,他们都存在过拟合的现象,也就是说,在训练数据集的交叉验证中往往有很好的预测能力,但是在独立数据集中预测能力则明显下降。其中的原因可能来自疾病个体基因组的高异质性和样本的有限性。
近年来,高通量测序技术的发展催生了基因组大数据行业。目前,人类个体基因组测序成本逐年下降,未来,会有针对某种疾病的大量基因组信息。美国宣布了百万人基因组计划,而英国也打算开展十万人基因组计划。基因组大数据可以更加明确基因和疾病之间的关系,其对疾病风险预测最直接的贡献是大量的样本,可以提高疾病风险预测模型的预测能力。
冠心病是一种多基因遗传的复杂疾病,不仅受遗传因素影响,也与日常饮食等生活习惯有关。尽管,通过一些临床检测指标可以检测冠心病的风险,如年龄、吸烟史、家族遗传史、血液胆固醇含量等,但是这些指标不能提前预测患病风险。而疾病遗传风险预测模型可以提供个体患病的遗传风险,有利于早期采取干预措施。目前,还没有很好的冠心病遗传风险评估方法,鉴于此,本发明提出了有效的冠心病遗传风险评估方法。
发明内容
本发明要解决的技术问题是提供一种基于二代测序的冠心病遗传风险评估方法。
为了解决上述技术问题,本发明提供一种冠心病遗传风险评估方法,其包括如下步骤:
(1)选取风险SNPs位点和加权重:输入已知风险SNPs位点和进行GWAS数据质量控制,所述的数据质量控制步骤如下:检查个体自报性别和预测的遗传性别的一致性,去除两者之间不一致的个体;只保留位于常染色体的SNPs并且去除所有样本中具有单一多态性的SNPs;去除样本间成功分型率小于0.95的SNPs;去除SNPs间有效分型率小于0.95的样本;检查样本间的亲缘关系和种群结构,样本间亲缘系数大于或等于0.125则被认为亲缘关系很近;种群结构分析用主成分分析的方法,R包SNPRelate被用来进行主成分分析和亲缘关系的分析,如果一个样本与前十个主成分中的任何一个的偏离超过6个标准差,则被认为是异常值,将被移除;当异常值和亲缘关系近的样本同时存在时,先移除异常值,然后移除亲缘关系近的样本中的一个;移除哈代-温伯格平衡P值小于0.000001的SNPs;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州协云和创生物科技有限公司,未经苏州协云和创生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510556934.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





