[发明专利]一种基于自注意力机制与多药物特征组合的预测方法有效
| 申请号: | 202011403977.X | 申请日: | 2020-12-04 |
| 公开(公告)号: | CN112435720B | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 宋晓宁;华阳;於东军;冯振华 | 申请(专利权)人: | 上海蠡图信息科技有限公司 |
| 主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/70;G16B15/30;G16B40/00 |
| 代理公司: | 南京禹为知识产权代理事务所(特殊普通合伙) 32272 | 代理人: | 朱宝庆 |
| 地址: | 200000 上海市宝山*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 机制 药物 特征 组合 预测 方法 | ||
1.一种基于自注意力机制与多药物特征组合的预测方法,其特征在于:包括,
药物分子经过扩展连通性指纹和Mol2Vec向量编译两种嵌入特征,由双向门控循环单元和邻域卷积抽取药物特征;
所述药物中的蛋白质序列在经过特征嵌入后,利用一维卷积提取蛋白特征并与所述药物特征做相关注意力增强;
拼接所述药物特征和所述蛋白特征,利用自注意力机制增强对蛋白质药物相互作用信息的提取;
利用自注意力机制增强对蛋白质药物相互作用信息的提取放入双向门控循环单元预测蛋白质和药物的相互作用;
其中,所述提取药物特征包括,
结合扩展连通性指纹和Mol2Vec向量编译两种方式对药物进行特征嵌入,首先将嵌入特征通过双向门控循环单元进行特征抽取,并将两种方式所得药物特征进行拼接,然后利用一维卷积神经网络对药物特征进行进一步特征提取;最后将得到的结果与蛋白特征一同送入分类器,从而获取药物特征;
所述提取蛋白特征包括,
对所述蛋白质序列进行预处理,根据其生化特征将22种氨基酸分为6种,包括:A={H,R,K},B={D,E,N,Q},C={C,X},D={S,T,P,A,G,U},E={M,I,L,V}以及F={F,Y,W},这样序列“MSPLNQSAEGLPQEASNRSLN”便可以转化为“EDDEBBDDBDEDBBDDBADEB”,该方法得到组合数为6*6*6=216种可显著降低特征矩阵的维数;同时利用一维卷积网络提取蛋白和药物特征,其卷积提取特征的公式如下所示:
其中:x(t)和q(t)函数为卷积的变量,p为积分变量,t为使函数q(-p)位移的量,*为卷积,所述蛋白序列在经历特征嵌入、一维卷积、最大池化和全连接后得到128维的特征,同所述药物特征一同放入分类器中。
2.如权利要求1所述的基于自注意力机制与多药物特征组合的预测方法,其特征在于:所述扩展连通性指纹包括,
所述扩展连通性指纹为一种圆形指纹,使用所述扩展连通性指纹对药物分子式进行编码包括:先将每个原子的环境和连通性在给定的半径上进行分析,然后对所有可能形成的结构进行哈希编码,最后使用散列算法将编码信息压缩到预定长度。
3.如权利要求2所述的基于自注意力机制与多药物特征组合的预测方法,其特征在于:所述Mol2Vec向量编译包括,
所述Mol2Vec向量编译从自然语言处理中演变而来,可以学习指向与化学相关子结构方向相似的分子子结构,通过将各个子结构的向量求和,最终将化合物编码为向量。
4.如权利要求3所述的基于自注意力机制与多药物特征组合的预测方法,其特征在于:所述与所述药物特征做相关注意力增强包括,
设定所述药物分子特征向量为Fdrug,所述蛋白质子序列特征向量为p={P1,P2,...,Pi},并构造一个关于Fdrug的注意力矩阵,可通过给所述蛋白质子序列分配更大的权重来计算其中哪些子序列对药物分子更重要,其公式表示为如下:
Wattention=f(WinterFdrug+Binter)
P′i=σ(WattentionPi)
其中:f为可通过梯度下降学习的函数,Winter和Binter为模型中可训练的权值和偏置,Wattention为注意力矩阵,P′i为做侧重学习后的蛋白特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海蠡图信息科技有限公司,未经上海蠡图信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011403977.X/1.html,转载请声明来源钻瓜专利网。





