[发明专利]一种致病遗传变异的精确预测方法有效
| 申请号: | 201810088147.9 | 申请日: | 2018-01-30 |
| 公开(公告)号: | CN108363902B | 公开(公告)日: | 2022-02-25 |
| 发明(设计)人: | 李其刚;赵科研;马欣 | 申请(专利权)人: | 成都奇恩生物科技有限公司 |
| 主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B20/20;G16B40/00 |
| 代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊;何凡 |
| 地址: | 610000 四川省成都市天府新区天府大道*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 致病 遗传 变异 精确 预测 方法 | ||
1.一种致病遗传变异的精确预测方法,其特征在于,包括如下步骤:
S1:收集已经报道和证实的致病变异,并根据发现时间的先后将已知致病变异分成两类:数据库变异和训练集阳性变异;
S2:根据步骤S1中得到的数据库变异得到ACMG指南中的证据;
S3:根据步骤S1中得到的训练集阳性变异,通过随机抽取方法模拟患者的遗传变异数据和相应的表型数据;
S4:根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据,得到ACMG指南相关的特征,实现指南相关的特征提炼;
S5:利用基于ERIC的计算方法计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性,得到表型相关的特征,实现表型相关的特征提炼;
S6:根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征,结合现有的跟致病性判断相关的特征,利用机器学习算法,实现综合考虑基因型数据和表型数据的变异致病性预测。
2.根据权利要求1所述的预测方法,其特征在于,所述步骤S3中模拟患者的遗传变异数据和相应的表型数据的随机抽取方法,包括如下步骤:
S3-1:从来自非罕见病患者的群体变异中随机抽取W个阴性变异,插入来自训练集阳性变异中的1个已知致病变异,将W个阴性变异和1个阳性致病变异构成患者的模拟遗传变异数据;
S3-2:从阳性致病变异所在基因的已知表型中随机抽取a个表型,然后随机抽取b个表型并进行不精确化处理,最后随机抽取c个无关的噪音表型,模拟出患者的a+b+c个表型,构成患者的表型数据;
S3-3:重复步骤S3-1至S3-2,模拟所有患者的遗传变异数据和相应的表型数据。
3.根据权利要求1所述的预测方法,其特征在于,所述步骤S5中,计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为:
式中t1、t2为模拟患者两种不同临床表型;T1为模拟患者表型集合;T2为一个基因的已知表型集合;sim(t1,t2)为表型t1和t2之间的相似度。
4.根据权利要求3所述的预测方法,其特征在于,计算表型间的相似度sim(t1,t2)所用计算公式为:
sim(t1,t2)=2IC(tMICA)-min(IC(t1),IC(t2))
式中tMICA为表型t1和t2的最大信息量共同祖先节点;IC(tMICA)为两个表型t1和t2共同的祖先tMICA的信息量;IC(t1)和IC(t2)分别为表型t1和t2的信息量。
5.根据权利要求4所述的预测方法,其特征在于,计算模拟患者表型t的信息量IC(t)所用计算公式为:
IC(t)=log(N/Nt)
式中N为基因总数;Nt为导致表型t的基因总数。
6.根据权利要求1所述的预测方法,其特征在于,所述步骤S6中,利用机器学习算法中的GBDT模型,实现综合考虑基因型数据和表型数据的变异致病性预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都奇恩生物科技有限公司,未经成都奇恩生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810088147.9/1.html,转载请声明来源钻瓜专利网。





