[发明专利]基于元路径的miRNA-疾病关联预测方法有效
申请号: | 202110524970.1 | 申请日: | 2021-05-14 |
公开(公告)号: | CN113223622B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 鱼亮;郑宇佳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06N3/042;G06N3/084;G06F18/25;G06F18/213 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 陈宏社;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 路径 mirna 疾病 关联 预测 方法 | ||
1.一种基于元路径的miRNA-疾病关联预测方法,其特征在于,包括如下步骤:
(1)获取正样本集Ω和负样本集Ω-:
(1a)从数据库中获取与N种疾病d={d1,d2,...,dn,...,dN}关联的M种miRNAr={r1,r2,...,rm,...,rM}的S条miRNA-疾病关联数据A={A1,A2,...,As,...,AS},每种疾病dn至少与一种miRNA关联,且每种miRNA rm至少与一种疾病关联,其中,N≥300,dn表示第n种疾病,M≥400,rm表示第m种miRNA,S≥5000,As表示第s条miRNA-疾病关联数据,1≤m≤M,1≤n≤N;
(1b)将从miRNA-疾病关联数据A中的S条miRNA-疾病关联数据作为正样本集Ω,同时从d与r之间且不包括A的所有miRNA-疾病关联数据中随机抽取S条不重复的关联数据A′={A′1,A′2,...,A′s,...,A′S},并将A′中的S条miRNA-疾病关联数据作为负样本集Ω-;
(2)构建miRNA-疾病-基因关联网络G:
(2a)从数据库中获取与M种miRNAr={r1,r2,...,rm,...,rM}相关的O条miRNA-miRNA关联数据B={B1,B2,...,Bo,...,BO},其中,O≥5000,Bo表示第o条miRNA-miRNA关联数据;
(2b)从数据库中获取与N种疾病d={d1,d2,…,dn,...,dN}关联的K种基因g={g1,g2,...,gk,...,gK}的H条疾病-基因关联数据Y={Y1,Y2,...,Yh,...,YH},每种基因gk至少与一种疾病关联,且每种疾病dn至少与一种基因关联,其中,K≥400,gk表示第k种基因,H≥1000,Yh表示第h条疾病-基因关联数据,1≤k≤K;
(2c)以M种miRNAr={r1,r2,…,rm,…,rM}、N种疾病d={d1,d2,...,dn,...,dN}和K种基因g={g1,g2,...,gk,…,gK}为节点,以正样本集Ω包含的S条正样本、miRNA-miRNA关联数据B包含的O条miRNA-miRNA关联数据和疾病-基因关联数据Y包含的H条疾病-基因关联数据为边,构建miRNA-疾病-基因关联网络G=(note,edge),其中,note表示节点集合,note={r1,r2,…,rm,…,rM,d1,d2,…,dn,…,dN,g1,g2,…,gk,…,gK},edge表示由S条正样本、O条miRNA-miRNA关联数据以及H条疾病-基因关联数据组成的边集;
(3)获取元路径集合P:
在miRNA-疾病-基因关联网络G的网络模式T=(nt,et)上定义I条元路径,得到元路径集合P={P1,P2,...,Pi,…,PI},其中,I≥3,nt表示节点类型集合,nt={r,d,g},et表示边类型集合,et={(r,r),(r,d),(d,g)},Pi表示第i条元路径,其形式为表示元路径Pi的第leni个节点的节点类型,表示元路径Pi的第leni个节点和第leni+1个节点之间的关系类型,LENi表示元路径Pi的路径长度,LENi≥2;
(4)获取每种元路径Pi的元路径实例集合
以类型的任一节点v1为起始节点,在miRNA-疾病-基因关联网络G中寻找与v1相连的类型的节点v2,再寻找与v2相连的类型的节点v3,依此类推,最后寻找与类型的节点相连的类型的节点得到元路径Pi的Qi条元路径实例集合其中,表示元路径Pi的第qi条元路径实例,
(5)构建基于元路径的图神经网络模型C:
(5a)构建基于元路径的图神经网络模型C的结构:
构建包括顺次连接的节点特征降维模块、基于一种元路径的特征学习模块、基于多种元路径的特征学习模块和节点特征输出模块的图神经网络模型C;其中,节点特征降维模块包括三个并行的全连接层;基于一种元路径的特征学习模块包括池化层和多个并行的多头注意力层;基于多种元路径的特征学习模块包括两个并行的全连接层;节点特征输出模块包括两个并行的全连接层,模型C的权值参数为θC;
(5b)定义基于元路径的图神经网络模型C的损失函数L:
其中,表示miRNArm的特征向量,表示疾病dn的特征向量,∑表示求和符号,σ表示激活函数,T表示转置;
(6)对基于元路径的图神经网络C进行迭代训练:
(6a)对每种miRNArm、每种疾病dn和每种基因gk分别进行one-hot编码,得到miRNArm的基特征dn的基特征和gk的基特征
(6b)初始化迭代次数为j,最大迭代次数为J,J≥100,第j次迭代模型C的权值参数为并令j=0,
(6c)将每种miRNArm的基特征作为模型C的节点特征降维模块中第一全连接层的输入进行线性变换,将每种疾病dn的基特征作为模型C的节点特征降维模块中第二全连接层的输入进行线性变换,将每种基因gk的基特征作为模型C的节点特征降维模块中第三全连接层的输入进行线性变换,得到miRNArm的隐藏特征向量dn的隐藏特征向量和gk的隐藏特征向量
(6d)将miRNArm的隐藏特征向量dn的隐藏特征向量和gk的隐藏特征向量以及每种元路径Pi的元路径实例集合作为模型C的基于一种元路径的特征学习模块的输入,池化层对每条元路径实例上所有节点的隐藏特征向量进行最大池化,得到每种元路径Pi的向量集合将中起始节点相同的元路径实例在向量集合中对应的向量作为一个多头注意力层的输入进行加权求和,得到每种miRNArm的特征向量集合和每种疾病dn的特征向量集合
(6e)基于多种元路径的特征学习模块中的第一全连接层对中的向量进行加权求和,得到miRNArm的特征向量节点特征输出模块中第一全连接层对进行线性变换,得到miRNArm的输出特征向量同时基于多种元路径的特征学习模块中的第二全连接层对中的向量进行加权求和,得到dn的特征向量节点特征输出模块中第二全连接层对进行线性变换,得到dn的输出特征向量
(6f)采用损失函数L,并通过和计算模型C的损失值Lj,然后采用反向传播方法,并通过Lj计算C的参数梯度,最后采用梯度下降算法通过C的参数梯度对C的权值参数进行更新;
(6g)判断j≥J是否成立,若是,得到训练好的miRNA-疾病关联预测模型C′,否则,令j=j+1,并执行步骤(6c);
(7)获取miRNA和疾病的预测结果:
采用激活函数σ,并通过训练好的miRNA-疾病关联预测模型C′输出的miRNArm的特征向量和dn的特征向量计算miRNArm与疾病dn的关联概率
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110524970.1/1.html,转载请声明来源钻瓜专利网。