[发明专利]一种利用机器学习预测复杂疾病易感位点的方法在审
申请号: | 201710592222.0 | 申请日: | 2017-07-19 |
公开(公告)号: | CN107341366A | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 董珊珊;杨铁林;姚石;陈一霄;郭燕;张钰洁 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/18;G06F19/12 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 王艾华 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 机器 学习 预测 复杂 疾病 易感位点 方法 | ||
1.一种利用机器学习预测复杂疾病易感位点的筛选方法,其特征在于,包括以下步骤:
P1:收集已知的复杂疾病易感位点作为机器学习模型的阳性集,根据阳性集推测与复杂疾病不相关的位点作为阴性集,并进行表观调控元件的注释;
P2:利用机器学习建立复杂疾病表观调控模型;
P3:根据建立的模型,对全基因组范围内全部的位点就进行预测,得到最终的预测结果作为复杂疾病的潜在易感位点。
2.根据权利要求1所述的一种利用机器学习预测复杂疾病易感位点的筛选方法,其特征在于,所述步骤P1具体包括以下步骤:
P11:利用公共数据库GWAS catalog、PheGenI和Pubmed相关文献收集某一复杂疾病的已知易感SNP,并利用千人基因组计划公布的基因型数据计算与已知易感位点高连锁的SNP作为阳性集;
P12:对于阴性集,筛选全基因组范围内满足如下条件的SNP组成阴性集合:A.与阳性集合内SNP一定距离范围内;B.与其对应阳性集合内SNP的最小等位基因频率之差小于0.05;C.独立于阳性集合内所有SNP(r2<0.1);选取完毕之后,阳性集和阴性集的比例为1:20;
P13:从UCSC和Roadmap数据库获取基因组所有表观调控元件信息,包括转录因子结合位点、组蛋白修饰位点和染色质分割状态;从GTEx数据库获取相关组织基因表达数量性状基因座信息;从ANNOVAR数据库获取序列保守性特征,每种调控元件储存为一个文本文件;
P14:利用获取的表观调控元件信息,根据基因组的物理位置对上述阳性集和阴性集内的SNP进行注释,对应原则为SNP如果与某个调控元件的屋里位置有重叠,则认为该SNP被这一调控元件注释到。
3.根据权利要求1所述的一种利用机器学习预测复杂疾病易感位点的筛选方法,其特征在于,所述步骤P2具体包括以下步骤:
P21:针对上述注释后的结果,利用R中的corrplot包计算调控元件之间的相关性并将高相关的调控元件随机去除,随后将注释结果随机分为训练集和测试集两部分,其中训练集占总集合的80%,测试集占总集合的20%,此步进行5折交叉验证;
P22:用不同机器学习算法对P21中所得训练集注释结果矩阵建立模型,所述机器学习方法包括但不限于随机森林、决策树、支持向量机;并用测试集判断模型的可靠性,评价指标包括灵敏性sensitivity、特异性specificity、精度precision、准确度accuracy和F1分数,计算公式如下:
Sensitivity=TP/(TP+FN)
Specificity=TN/(TN+FP)
Precision=TP/(TP+FP)
Accuracy=(TP+TN)/(TP+FN+FP+TN)
F1=2×TP/(2×TP+FP+FN)
其中,TP为真阳性,FN为假阴性,TN为真阴性,FP为假阳性;
P23:根据P22所述模型评价指标,利用元件特征选择对模型进行优化,具体步骤如下:通过模型获得调控元件对模型的重要性排序;根据元件的重要性构建多个特征子集,集合中的特征数最大逐渐减少至1;根据模型评价指标确定模型的最优子集,用以预测新的复杂疾病易感遗传位点。
4.根据权利要求1所述的一种利用机器学习预测复杂疾病易感位点的筛选方法,其特征在于,所述步骤P3具体包括以下内容:
P31:通过P2步骤获得机器学习模型的最优子集,利用子集中包含的调控元件对全基因组范围内全部的位点进行注释;
P32:根据建立的最优模型,对全基因组范围内全部的位点进行预测,最终得到与阳性调控元件注释相似的位点,即为复杂疾病的潜在易感位点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710592222.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种遗传病的筛查方法和试剂盒
- 下一篇:一种序列号防重用方法和装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用