[发明专利]基于外部知识的药物相互作用关系抽取方法及系统有效
| 申请号: | 202010643746.X | 申请日: | 2020-07-06 |
| 公开(公告)号: | CN111814460B | 公开(公告)日: | 2021-02-09 |
| 发明(设计)人: | 琚生根;罗莘涛;刘宁宁 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N3/04;G06N3/08;G06F16/335 |
| 代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
| 地址: | 610065 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 外部 知识 药物 相互作用 关系 抽取 方法 系统 | ||
1.一种基于外部知识的药物相互作用关系抽取方法,其特征在于,包括以下步骤:
对药物数据库内容进行分析处理,抽取并生成相互作用的药物对,同时保存所有药物描述信息,形成带有药物描述信息的药物相互作用数据集;
构建药物描述系信息训练模型,并通过所述药物相互作用数据集进行训练,得到并保存最优模型;
将所述最优模型与BiLSTM-Att-CapsNet模型相结合得到EK-BiLSTM-Att-CapsNet模型,同时识别药物相互作用数据集的药物实体,在药物数据库中找寻对应药物描述信息并保存,最后对结合的模型进行训练得到最终关系抽取模型。
2.根据权利要求1所述的方法,其特征在于,所述构建药物描述系信息训练模型,并通过所述药物相互作用数据集进行训练,得到并保存最优模型的步骤,具体包括:
同一时间接收第一药物的描述信息、第二药物的描述信息;
将第一药物的描述信息、第二药物的描述信息转换为向量表示;
分别获取第一药物与第二药物描述语句的前向信息和后向信息,然后将二者相结合,作为句子表示;
对句子表示进行线性变换,然后进行性归一化处理,选取类别概率最大的作为预测类别标签;
利用损失函数代入药物相互作用数据集训练,得到最优模型。
3.根据权利要求2所述的方法,其特征在于,得到句子表示的方法为:
BiLSTM获取语句的前向信息和后向信息,计算得到隐藏层的输出:
表示正向输入的语句,表示逆序输入的语句,表示正向输入的语句的输出,表示逆序输入的语句的输出,H为BiLSTM隐藏层的输出;
计算得到经过BiLSTM后,句子表示为:
表示前向输入的最后一个时间步的信息,表示后向输入的最后一个时间步的信息。
4.根据权利要求3所述的方法,其特征在于,所述预测类别标签通过以下方式得到:
先计算得到句子表示的线性变换:
h*=[h1;h2];
output=W(fc)·h*+b(fc);
其中,W(fc)和b(fc)分别为全连接层的权重参数和偏置参数,h1∈RN表示第一药物描述信息经过BiLSTM层的句子表示,h2∈RN表示第二药物描述信息经过BiLSTM层的句子表示,N表示BiLSTM隐藏层单元数目,output为线性变换输出,h*∈R2N为第一药物、第二药物句子表示的拼接;
根据线性变换进行归一化处理,选取最大的类别概率为预测类别标签:
其中,代表预测类别标签,output代表所述句子线性变换的输出,softmax(output)为归一化处理。
5.根据权利要求4所述的方法,其特征在于,所述损失函数为:
其中,y∈Rm代表真实类别标签,m代表类别标签数目,y和以one-hot向量表示,λ是L2正则化的超参数,θ为在模型中进行训练得到。
6.根据权利要求5所述的方法,其特征在于,所述EK-BiLSTM-Att-CapsNet模型使用的损失函数为:
L=Tkmax(0,m+-||vk||)2+λ(1-Tk)max(0,||vk||-m-)2
其中,Tk为分类的指示函数,k为指示系数,m+为上边界,||vk||为第k个胶囊的长度,m-为下边界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010643746.X/1.html,转载请声明来源钻瓜专利网。





