[发明专利]一种利用机器学习预测复杂疾病易感位点的方法在审

专利信息
申请号: 201710592222.0 申请日: 2017-07-19
公开(公告)号: CN107341366A 公开(公告)日: 2017-11-10
发明(设计)人: 董珊珊;杨铁林;姚石;陈一霄;郭燕;张钰洁 申请(专利权)人: 西安交通大学
主分类号: G06F19/24 分类号: G06F19/24;G06F19/18;G06F19/12
代理公司: 西安通大专利代理有限责任公司61200 代理人: 王艾华
地址: 710049 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 利用 机器 学习 预测 复杂 疾病 易感位点 方法
【说明书】:

技术领域

发明涉及复杂疾病易感位点预测技术领域,具体涉及一种利用机器学习预测复杂疾病易感位点的筛选方法。

背景技术

近年来,全基因组关联分析成为揭示复杂疾病易感位点(Single nucleotide polymorphism,SNP)最热且有效的研究方法。利用这种方法,现已有两千余篇论文发表在国际高水平杂志上,成功鉴定了近万个复杂疾病易感位点。尽管全基因组关联分析成果颇丰,却远未达到科学家的预想——找到大部分疾病易感位点。对于特定的复杂疾病,已报道的疾病易感位点累积起来解释的疾病遗传变异不到15%,尚有大量未知的遗传因素,即“丢失的遗传力”亟待挖掘。这是所有复杂疾病遗传学研究中面临的共同问题,反应出我们对现有数据资源的利用和挖掘不足。为了寻找未知的遗传致病因素,现阶段迫切需要提出切实可行的新方法、新手段,深入、系统地挖掘人类基因组数据,其结果有助于揭示复杂疾病的发病机理、靶向药物的设计和研发以及临床早期筛查和个体化防治等方面。

基因组包括两类遗传信息:即DNA序列遗传信息和表观遗传学信息。目前,表观遗传学的研究成果已经应用于一些疾病的研究和治疗中。因此,在进行疾病易感位点预测时,非常有必要纳入表观遗传学的信息。已有的基于基因组表观调控元件特征预测复杂疾病易感位点的方法多种多样,多数是预测外显子区域或特定基因座的遗传变异。然而非编码区的多态性同样能够影响下游基因的表达,从而揭示复杂疾病的发病机制。因此十分有必要对全基因组范围内的位点进行筛选,找到与复杂疾病相关的位点。目前,已有多个数据库揭示了基因组表观遗传学信息,但是数以亿计的遗传标记和多维的元件信息给遗传位点的预测带来了巨大的挑战。机器学习是近20多年兴起的一门多领域交叉学科,为了充分且有效地利用生物学数据,生物学与机器学习的交叉研究日益活跃。因此,基于基因组表观调控元件特征,利用机器学习的方法预测全基因组范围内的复杂疾病易感位点十分必要。

发明内容

为了克服已有技术的缺陷,本发明的目的在于提供一种利用机器学习的方法,结合表观调控元件特征的复杂疾病易感遗传标记的预测方法,将表观遗传学信息和基因组DNA信息结合起来,通过机器学习提取表观调控元件特征,进而在全基因组范围内预测复杂疾病的易感位点,可显著提高所解释的遗传力,为后续设计药物和疾病检测提供了潜在的靶标。

为了实现上述目的,本发明的技术方案是这样实现的:

一种利用机器学习预测复杂疾病易感位点的方法,包括以下步骤:

P1:收集已知的复杂疾病易感位点作为机器学习模型的阳性集,根据阳性集推测与复杂疾病不相关的位点作为阴性集,并进行表观调控元件的注释;

P2:利用机器学习建立复杂疾病表观调控模型;

P3:根据建立的模型,对全基因组范围内全部位点就进行预测,得到最终的预测结果作为复杂疾病的潜在易感位点。

所属步骤P1具体包括:

P11:利用公共数据库GWAS catalog、PheGenI和Pubmed相关文献收集某一疾病的已知易感SNP,并利用千人基因组计划公布的基因型数据计算与已知易感位点高连锁的SNP作为阳性集;

P12:对于阴性集,我们筛选全基因组范围内满足如下条件的SNP组成阴性集合:A.与阳性集合内SNP一定距离范围内;B.与其对应阳性集合内SNP的最小等位基因频率之差小于0.05;C.独立于阳性集合内所有SNP(r2<0.1);

P13:从UCSC和Roadmap数据库获取基因组所有表观调控元件信息,包括转录因子结合位点、组蛋白修饰位点和染色质分割状态;从GTEx数据库获取相关组织基因表达数量性状基因座信息;从ANNOVAR数据库获取序列保守性特征,每种调控元件储存为一个文本文件;

P14:利用获取的表观调控元件信息,根据基因组的物理位置对上述阳性集和阴性集内的SNP进行注释。对应原则为SNP如果与某个调控元件的屋里位置有重叠,则认为该SNP被这一调控元件注释到。

所述步骤P2具体包括:

P21:针对上述注释后的结果,利用R中的corrplot包计算调控元件之间的相关性并将高相关的调控元件随机去除,随后将注释结果随机分为训练集和测试集两部分,其中训练集占总集合的80%,测试集占总集合的20%,此步进行5折交叉验证;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710592222.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top