[发明专利]一种基于图卷积和词向量的药物-靶标相互作用预测方法有效
| 申请号: | 201910460463.9 | 申请日: | 2019-05-30 |
| 公开(公告)号: | CN110289050B | 公开(公告)日: | 2023-06-16 |
| 发明(设计)人: | 全哲;郭燕;林轩;何楠;王梓旭 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G16C20/10 | 分类号: | G16C20/10;G16C20/50;G16C20/70 |
| 代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 王翀;阳江军 |
| 地址: | 410082 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 图卷 向量 药物 靶标 相互作用 预测 方法 | ||
1.一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,包括如下步骤:
步骤1、构建数据集,对数据集进行切分,生成80%的训练集和20%的测试集;
步骤2、对训练集中的药物构建邻接矩阵并提取分子指纹特征;
步骤3、构建靶标的氨基酸序列的三元组词向量表;
步骤4、利用Embedding层对分子指纹特征做映射,同时利用Embedding层将每个靶标的氨基酸序列转换成一个100维的矩阵;
步骤5、利用图卷积对处理好的药物特征进行训练,利用CNN对处理好的靶标特征进行训练;
具体包括如下步骤:
步骤5.1、图卷积过程:
输入:
分子图G=(V,E),半径R
对于每个节点vi∈V以及边eij∈E
eij(t+1)=σ(eij(t)+gij(t)) (2)
输出:
步骤5.1.1、遍历图中所有节点和边;
步骤5.1.2、对节点做如式1的计算,其中:
σ(x)=1/(1+e-x) (4)
步骤5.1.2、对边做如式2的计算,其中:
步骤5.1.3、计算输出;
步骤5.2、卷积过程;
步骤5.2.1、输入Embedding后的氨基酸序列;
步骤5.2.2、进行卷积运算
步骤6、将训练后得到的药物特征和靶标特征连接在一起,输入全连接层;
步骤7、经过多次迭代计算,得到训练后的模型;
步骤8、将测试集经过同样的提取特征处理,喂入模型得到测试结果。
2.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,步骤1具体包括如下步骤:
步骤1.1、将数据集进行切分,打乱,生成80%的训练集和20%的测试集,将测试集固定不变用于对照;
步骤1.2、对数据集的切分保证训练集和测试集的分布一致。
3.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,在步骤2中,利用RDKit对数据集中的药物构建邻接矩阵。
4.如权利要求1或3所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,在步骤2中,所述分子指纹特征是摩根型指纹。
5.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,步骤3具体包括如下步骤:
步骤3.1、将靶标的氨基酸序列3个为一组进行切割;
步骤3.2、利用预训练的词向量表构建词向量矩阵,矩阵的大小为不重复的3元组个数乘100;
步骤3.3、对所有不重复的氨基酸3元组进行编号。
6.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,步骤4具体包括如下步骤:
步骤4.1、Embedding层将氨基酸序列转换成100维的矩阵,同样的也将分子指纹转换成特定维度的矩阵;
步骤4.2、Embedding层构建一个映射f:X→Y,将一个空间里的实体映射到一个线性向量空间。
7.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,在步骤1中,所述数据集采用Davis数据集,所述Davis数据集中含有68个药物,442个靶标,共30056个药物-靶标对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910460463.9/1.html,转载请声明来源钻瓜专利网。





