[发明专利]基于网络表示学习的计算疾病相似度系统有效
| 申请号: | 202011035456.3 | 申请日: | 2020-09-27 |
| 公开(公告)号: | CN112151184B | 公开(公告)日: | 2021-05-07 |
| 发明(设计)人: | 李洋;汪国华;王柯淇 | 申请(专利权)人: | 东北林业大学 |
| 主分类号: | G16H50/70 | 分类号: | G16H50/70;G06K9/62 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
| 地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 网络 表示 学习 计算 疾病 相似 系统 | ||
1.基于网络表示学习的计算疾病相似度系统,其特征在于所述系统包括:
DisGeNet数据集、GeneOntlogy数据集、HumanNet网络、信息融合模块、网络嵌入模块、疾病相似度计算模块;
所述DisGeNet数据集用于存储基因和疾病之间的关系;
所述GeneOntlogy数据集用于存储Go_term之间的关系以及Go_term和基因之间的关系;
所述HumanNet网络用于存储基因之间的关系;
所述信息融合模块,用于将基因相似度矩阵进行拉普拉斯平滑得到矩阵R,利用矩阵R计算两个Go_term注释的基因集之间相似度,利用Go_term注释的基因集之间相似度计算两个Go_term之间的相似度,利用两个Go_term之间的相似度获得基因之间的相似度,其具体过程为:
步骤二一、将HumanNet网络中的基因相似度矩阵进行拉普拉斯平滑:
其中
其中,R为拉普拉斯平滑后的相似度矩阵,lambda是拉普拉斯平滑的参数,sum是HumanNet中所有基因对相似性的总和,N是基因的数量,b是用于将值规格化为(0,1)区间的值的扩展因子,s[i][j]是i,j的相似度矩阵,gi和gj表示疾病基因;
步骤二二、计算两个Go_term之间的相似度,其具体过程为:
步骤二二一、结合来自HumanNet和GO_term的信息计算两个GO_term注释的基因集之间的相似度:
D(t1,t2)是两个Go_term注释的基因集之间的相似度,t1、t2是两个GO_term,G1、G2是t1、t2对应的基因集,dij=1-R[i][j]是两个基因之间的距离,|g1∪G2|是与t1、t2两个GO_term相关的两个基因的集合G1、G2并集的基因数;
步骤二二二、计算两个Go-term之间的相似度:
其中,
h(t1,t2)=D(t1,t2)2*|G|+(1-D(t1,t2)2)*max(|G1|,|G2|)
其中,p是距离t1、t2最近的公共父节点,Gp是p和t1、t2子节点注释的基因集,G是根节点和t1、t2子节点注释的基因集,f′(t1,t2,p)是t1、t2、p基于路径的相似度,h(t1,t2)是t1、t2基于公共父节点的相似度,是t1注释的基因集、t2注释的基因集、t1和t2的共同亲本p注释的基因集三个基因集并集的基因数目;
步骤二三、计算基因之间的相似度:
根据步骤二二获得的Go_term之间的相似度,获得基因之间的相似度:
其中,
其中,S(·,)表示两个Go-term之间的相似度,y表示i或j,t1、t2是两个GO_term;
基于z-score和给定的GO_term,可以从Tj获得两个集合:
如果|T′th||T′tl|,那么T′j=T′th,否则T′j=T′tl;
其中是相似性标准分数,Ti和Tj分别是gi和gj注释的术语集,|Ti|+|Tj|是Ti和Tj中基因数的和,T′j是Tj中部分Go_term的集合,T′i是Ti中部分Go_term语句的集合,所述的注释的术语集是与基因相关的Go_term的集合;
所述网络嵌入模块,基于基因之间的相似度将每个基因转化为向量形式,其具体过程为:
步骤三一、对于每条有向边(i,j)从基因vi到基因vj之间的联合概率为:
其中为基因vi的作为起始节点时的向量表示,为基因vj作为终止节点时的向量表示,T表示向量的转置,其中V是网络中顶点的总数;
步骤三二、在网络结构中vi、vj的经验值定义为:
其中,wij表示GenSim(gi,gj),d′i是vi所有出度的和;
步骤三三、调整基因的向量表示使p2、之间的差异最小化,即使目标函数
最小化,其中λi为i的权重,d1(·)表示和p2的相对熵;
所述疾病相似度计算模块,基于基因的向量表示和疾病相关基因数据集DisGeNET将疾病相关基因融合,得到疾病的向量表示,利用疾病向量表示度量疾病的相似性;
所述Go_term为基因本体的数据集;
所述Go_term注释的基因集是与Go_term相关基因集的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学,未经东北林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011035456.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种企业风险预警方法、装置、设备及可读存储介质
- 下一篇:一种智能焊接设备





