[发明专利]一种基于异质网的基因相似性搜索方法有效
申请号: | 201910206801.6 | 申请日: | 2019-03-19 |
公开(公告)号: | CN110010196B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 杜金莲;杨开敏;付利华;王丹;赵文兵 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B50/00 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 异质网 基因 相似性 搜索 方法 | ||
1.一种基于异质网的基因相似性搜索方法,其特征在于,采用如下步骤:
步骤1、建立基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因-疾病二分网络即基因疾病邻接矩阵Sgd、疾病-表型二分网络即疾病表型邻接矩阵Sdp;
通过对获取到的基因-疾病-表型关联数据、疾病本体数据、表型本体数据进行整理和处理,构建基因-疾病-表型异质网、疾病本体有向无环图、表型本体有向无环图、基因-疾病二分网络和疾病-表型二分网络;
步骤2、基于步骤1中构建的疾病本体和表型本体的有向无环图,利用一种基于边的方法分别计算疾病语义相似性矩阵Sdis和表型的语义相似性矩阵Shpo;
步骤3、利用高斯核函数计算疾病本体的拓扑相似性矩阵Kd和表型本体的拓扑相似性矩阵Kp:
在步骤1构建的基因疾病邻接矩阵Sgd和疾病表型邻接矩阵Sdp的基础上,采用高斯核函数计算疾病本体的拓扑相似性矩阵Kd和表型本体的拓扑相似性矩阵Kp;
步骤4、分别将疾病和表型的语义相似性矩阵和拓扑相似性矩阵进行融合得到疾病相似性矩阵Sd和表型的相似性矩阵Sp;
将步骤2得到的疾病语义相似性矩阵Sdis和步骤3得到的疾病拓扑相似性矩阵Kd进行融合得到疾病相似性矩阵Sd;将步骤2得到的表型语义相似性矩阵Shpo和步骤3得到的表型拓扑相似性矩阵Kp进行融合得到表型相似性矩阵Sp;
步骤5、利用二部图算法计算基因-疾病二分网络中的链接权重:
(a)将步骤4得到的疾病相似性矩阵Sd融入基因-疾病二分网络中,即将基因疾病邻接矩阵Sgd与疾病相似性矩阵Sd相乘,构建基因疾病整合邻接矩阵Agd;
(b)先进行疾病到基因的第一次资源扩散,即资源通过基因疾病整合邻接矩阵Agd从疾病扩散到基因;
(c)再进行基因到疾病的第二次资源扩散,将(b)中第一次资源扩散的结果通过基因疾病整合邻接矩阵Agd从基因扩散到疾病,并将第二次扩散的结果与步骤1中初始的基因疾病的关联关系即基因疾病邻接矩阵Sgd按比例结合;
通过步骤5得到基因-疾病关联矩阵WSgd,该矩阵中的每一个数值代表基因到疾病的关联程度;
步骤6、利用二部图算法计算疾病-表型二分网络中链接的权重:
(a)将步骤4得到的表型相似性矩阵Sp融入疾病-表型二分网络中,即将疾病表型邻接矩阵Sdp与表型相似性矩阵Sp相乘,构建疾病表型的整合邻接矩阵Adp;
(b)先进行表型到疾病的第一次资源扩散,即资源通过疾病表型整合邻接矩阵Adp从表型扩散到疾病;
(c)再进行疾病到表型的第二次资源扩散,将(b)中第一次资源扩散的结果通过疾病表型整合邻接矩阵Adp从疾病扩散到表型,并将第二次扩散的结果与步骤1中初始的疾病表型的关联关系即疾病表型邻接矩阵Sdp按比例结合;
通过步骤6得到疾病-表型关联矩阵WSdp,该矩阵中的每一个数值代表疾病到表型的关联程度;
通过前6个步骤形成一个加权的基因-疾病-表型异质网;
步骤7、在加权的基因-疾病-表型异质网中,应用PathSim算法计算基因的相似性:
首先计算基因通过基因-疾病-表型-疾病-基因元路径到每个表型的链接权重,即将步骤5中得到的基因-疾病关联矩阵WSgd和步骤6得到的疾病-表型关联矩阵WSdp相乘得到基因-表型关联矩阵WSgp;
其次,根据基因-表型关联矩阵WSgp计算通过基因-疾病-表型-疾病-基因元路径可达的链接权重之和;
最后,利用PathSim算法计算基因间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910206801.6/1.html,转载请声明来源钻瓜专利网。