[发明专利]基于多样子结构特征融合的分子活性预测方法有效
申请号: | 202010729533.9 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111916143B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 丁静怡;宋健;焦李成;吴建设;成若晖 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B40/00;G16C20/30;G16C20/70 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多样 结构 特征 融合 分子 活性 预测 方法 | ||
1.一种基于多样子结构特征融合的分子活性预测方法,其特征在于,利用随机游走方法提取分子图多个子结构特征,将融合后的多个子结构特征输入到训练好的多层神经网络预测分子活性,该方法的具体步骤包括:
(1)获得药物分子信息对应的特征矩阵:
将一种药物分子中的原子基于字节进行独热编码后,得到独热编码特征矩阵,将该种药物原子之间的键值对表示成邻域特征矩阵,将该种药物分子活性基于字节进行独热编码,得到独热编码标签特征矩阵;
(2)挑选初始节点:
(2a)将药物分子的原子表示成节点,原子之间的化学键表示成连边,药物分子活性表示成分子图标签,由节点、连边和分子图标签组成分子图;
(2b)利用Betweenness方法,计算分子图中每个节点的中心性值,选取节点中心性值最高的节点作为初始节点;
(3)提取分子图多个子结构特征:
由初始节点开始,利用随机游走方法,从分子图中挑选小于分子图节点数量的l个无重复节点组成分子图的子结构,利用相同方法挑选出一个子结构集合;
(4)计算子结构的相似度:
(4a)将子结构集合中的每个子结构基于节点编码,得到该子结构的特征矩阵;
(4b)利用相似度公式,计算子结构集合中的每两两子结构的相似度:
其中,Jm,n表示子结构集合中第m个子结构和第n个子结构的相似度,g表示子结构集合中第m个子结构对应的特征矩阵,p表示子结构集合中第n个子结构的特征矩阵,|·|表示矩阵取模操作,∩表示取交集操作,∪表示取并集操作;
(4c)将所有相似度大于或等于阈值的子结构存储到相似集合中,再将剩余的子结构存储到相异集合中,所述阈值是在(0.5,1)的范围内,根据不同分子图类中节点的数量选取;
(5)融合子结构特征矩阵:
将相似集合中所有的子结构特征矩阵平均得到一个融合后的子结构特征矩阵;
(6)训练神经网络:
(6a)从相异集合中任意选取两个子结构特征,将所选的两个子结构特征输入到4层的多层感知机神经网络中,输出预测的分子图标签,利用交叉熵损失函数,计算与该预测的分子图标签对应真实的分子图标签之间的损失值;
(6b)将融合后的子结构特征输入到4层的多层感知机神经网络中,输出预测的分子图标签,利用交叉熵损失函数,计算与该预测的分子图标签对应真实的分子图标签之间的损失值;
(6c)将上面两个损失值叠加,得到训练神经网络的损失值;
(7)判断训练神经网络的损失值是否收敛,若是,停止训练,得到训练好的多层感知机神经网络,执行步骤(8),否则,执行步骤(3);
(8)将待预测的同类的分子图输入到训练好的多层感知机神经网络中,输出分子图标签,得到与分子图标签对应的活性类型。
2.根据权利要求1中所述的基于多样子结构特征融合的分子活性预测方法,其特征在于,步骤(3)中所述随机游走方法的步骤为:利用随机游走方法,选择分子图节点邻域中未被选择的节点,选择过程中,当前节点邻域中不存在未被挑选的节点,则回溯到之前挑选过的节点,其中节点邻域表示分子图中连接该节点的所有其他节点集合。
3.根据权利要求1中所述的基于多样子结构特征融合的分子活性预测方法,其特征在于,步骤(6c)中将两个损失值叠加的步骤为:
第一步,利用交叉熵损失函数,融合后的特征矩阵输入到神经网络中得到损失值λ1,挑选的相异集合中子结构输入到神经网络中得到损失值λ2;
第二步,按照下式,得到神经网络损失值L:
L=pλ1+(1-p)λ2
其中,p表示偏向值,该偏向值是在(0.8,1)的范围内中根据不同分子图类中节点的数量选取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010729533.9/1.html,转载请声明来源钻瓜专利网。