[发明专利]一种利用机器学习预测复杂疾病易感位点的方法在审
申请号: | 201710592222.0 | 申请日: | 2017-07-19 |
公开(公告)号: | CN107341366A | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 董珊珊;杨铁林;姚石;陈一霄;郭燕;张钰洁 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/18;G06F19/12 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 王艾华 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 机器 学习 预测 复杂 疾病 易感位点 方法 | ||
技术领域
本发明涉及复杂疾病易感位点预测技术领域,具体涉及一种利用机器学习预测复杂疾病易感位点的筛选方法。
背景技术
近年来,全基因组关联分析成为揭示复杂疾病易感位点(Single nucleotide polymorphism,SNP)最热且有效的研究方法。利用这种方法,现已有两千余篇论文发表在国际高水平杂志上,成功鉴定了近万个复杂疾病易感位点。尽管全基因组关联分析成果颇丰,却远未达到科学家的预想——找到大部分疾病易感位点。对于特定的复杂疾病,已报道的疾病易感位点累积起来解释的疾病遗传变异不到15%,尚有大量未知的遗传因素,即“丢失的遗传力”亟待挖掘。这是所有复杂疾病遗传学研究中面临的共同问题,反应出我们对现有数据资源的利用和挖掘不足。为了寻找未知的遗传致病因素,现阶段迫切需要提出切实可行的新方法、新手段,深入、系统地挖掘人类基因组数据,其结果有助于揭示复杂疾病的发病机理、靶向药物的设计和研发以及临床早期筛查和个体化防治等方面。
基因组包括两类遗传信息:即DNA序列遗传信息和表观遗传学信息。目前,表观遗传学的研究成果已经应用于一些疾病的研究和治疗中。因此,在进行疾病易感位点预测时,非常有必要纳入表观遗传学的信息。已有的基于基因组表观调控元件特征预测复杂疾病易感位点的方法多种多样,多数是预测外显子区域或特定基因座的遗传变异。然而非编码区的多态性同样能够影响下游基因的表达,从而揭示复杂疾病的发病机制。因此十分有必要对全基因组范围内的位点进行筛选,找到与复杂疾病相关的位点。目前,已有多个数据库揭示了基因组表观遗传学信息,但是数以亿计的遗传标记和多维的元件信息给遗传位点的预测带来了巨大的挑战。机器学习是近20多年兴起的一门多领域交叉学科,为了充分且有效地利用生物学数据,生物学与机器学习的交叉研究日益活跃。因此,基于基因组表观调控元件特征,利用机器学习的方法预测全基因组范围内的复杂疾病易感位点十分必要。
发明内容
为了克服已有技术的缺陷,本发明的目的在于提供一种利用机器学习的方法,结合表观调控元件特征的复杂疾病易感遗传标记的预测方法,将表观遗传学信息和基因组DNA信息结合起来,通过机器学习提取表观调控元件特征,进而在全基因组范围内预测复杂疾病的易感位点,可显著提高所解释的遗传力,为后续设计药物和疾病检测提供了潜在的靶标。
为了实现上述目的,本发明的技术方案是这样实现的:
一种利用机器学习预测复杂疾病易感位点的方法,包括以下步骤:
P1:收集已知的复杂疾病易感位点作为机器学习模型的阳性集,根据阳性集推测与复杂疾病不相关的位点作为阴性集,并进行表观调控元件的注释;
P2:利用机器学习建立复杂疾病表观调控模型;
P3:根据建立的模型,对全基因组范围内全部位点就进行预测,得到最终的预测结果作为复杂疾病的潜在易感位点。
所属步骤P1具体包括:
P11:利用公共数据库GWAS catalog、PheGenI和Pubmed相关文献收集某一疾病的已知易感SNP,并利用千人基因组计划公布的基因型数据计算与已知易感位点高连锁的SNP作为阳性集;
P12:对于阴性集,我们筛选全基因组范围内满足如下条件的SNP组成阴性集合:A.与阳性集合内SNP一定距离范围内;B.与其对应阳性集合内SNP的最小等位基因频率之差小于0.05;C.独立于阳性集合内所有SNP(r2<0.1);
P13:从UCSC和Roadmap数据库获取基因组所有表观调控元件信息,包括转录因子结合位点、组蛋白修饰位点和染色质分割状态;从GTEx数据库获取相关组织基因表达数量性状基因座信息;从ANNOVAR数据库获取序列保守性特征,每种调控元件储存为一个文本文件;
P14:利用获取的表观调控元件信息,根据基因组的物理位置对上述阳性集和阴性集内的SNP进行注释。对应原则为SNP如果与某个调控元件的屋里位置有重叠,则认为该SNP被这一调控元件注释到。
所述步骤P2具体包括:
P21:针对上述注释后的结果,利用R中的corrplot包计算调控元件之间的相关性并将高相关的调控元件随机去除,随后将注释结果随机分为训练集和测试集两部分,其中训练集占总集合的80%,测试集占总集合的20%,此步进行5折交叉验证;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710592222.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种遗传病的筛查方法和试剂盒
- 下一篇:一种序列号防重用方法和装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用