[发明专利]多任务序列标注的药物实体和相互作用联合抽取方法在审
| 申请号: | 202210628078.2 | 申请日: | 2022-06-06 |
| 公开(公告)号: | CN115019906A | 公开(公告)日: | 2022-09-06 |
| 发明(设计)人: | 邓皓瀚;朱嘉静;刘勇国;张云;李巧勤 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G16C20/70 | 分类号: | G16C20/70;G16C20/50;G06N3/04;G06N3/08;G06F40/30 |
| 代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 任务 序列 标注 药物 实体 相互作用 联合 抽取 方法 | ||
1.多任务序列标注的药物实体和相互作用联合抽取方法,其特征在于,包括以下步骤:
S1、数据预处理,包括通用数据预处理、药物实体识别序列标注数据集构建、药物相互作用抽取序列标注数据集构建、类别关键词词典获取;
S2、药物命名实体识别;
S3、药物相互作用抽取;
S4、模型训练与损失函数。
2.根据权利要求1所述的多任务序列标注的药物实体和相互作用联合抽取方法,其特征在于,所述步骤S1具体实现方法为:
S11、通用数据预处理,所用数据来自DDIExtraction2013挑战数据集,包括以下子步骤:
S111、删除仅包含一个及以下药物实体的文本;
S112、将药物相互作用描述文本全部转换为小写,同时将所有标点符号和非英文字符去除;
S113、将药物相互作用描述文本中的所有数字全部用单词“num”替换;
S114、设定最大句子长度为256,如果句子不够最大长度,用字符“0”填充;如果句子超过最大长度,则对超出部分进行截断处理;
S12、药物实体识别序列标注数据集构建:解析DDIExtraction2013挑战数据集的xml文件,结合BIO标注模式和药物类别标签生成药物实体的最终标签,构建一个序列标注数据集用于药物实体识别;具体方法为:采用BIO标注模式对数据样本进行标注,实体词是指一个或多个英文单词组成的药物实体名称;将非实体词用O标注,实体词第一个单词用B表述,后面的单词用I标注;同时引入四类药物类别标签:drug、group、drug_n和brand,将药物类别标签拼接在B、I后面形成最终标签;
S13、药物相互作用抽取序列标注数据集构建:在DDIExtraction2013挑战数据集中,药物相互作用分为五类,分别为effect、mechanism、advice、int和false;通过解析原数据集xml文件,获得每一种药物与其他药物实体的相互作用;结合BIO标注模式、药物主客体类型和药物相互作用为药物实体生成标签,构造药物相互作用抽取序列标注数据集;具体方法为:基于BIO标注模式,指定一药物实体为药物主体,使用“B-S”或“I-S”标签对药物主体进行标注,其他药物实体则根据该实体与药物主体的相互作用进行标注;
一句输入文本若包含n个药物实体,则遍历n个实体,依次作为药物主体,生成n条序列标注文本数据;对每一条序列标注文本数据,将药物主体的标签与上下文顺序在其之后的药物实体的标签进行配对,抽取出以该药物为主体的所有相互作用三元组,获得输入文本对应的所有序列标注文本抽取到的相互作用三元组,即是输入文本中包含的所有的药物相互作用三元组;
S14、构造类别先验的关键词向量词典,详细步骤如下:
S141、对S11预处理后的药物相互作用描述文本再进行以下处理:
对于句中的某一对药物,使用类别标签将句子文本主体进行标记;
将药物相互作用对应的两个药物实体文本,分别替换为“相互作用类别_a”和“相互作用类别_b”;
将无关药物实体名称替换为“DRUG”;
S142、将S141处理好的相互作用描述文本X={x1,x2,...,xn}馈送至BioBert预训练模型,获得该文本的编码向量V={v1,v2,...,vn},xi表示文本中的第i个单词,vi表示第i个词对应的编码向量,n表示文本长度:
V=BioBert(X);
S143、对文本的嵌入单词向量求平均,得到融合整个上下文语义信息的句子嵌入向量
S144、将S142获得的单词嵌入向量逐一与S143获得的句子嵌入向量计算余弦相似度:
其中,i表示文本中单词序号,取值1~n;
将每个单词向量与句子向量的相似性得分Simi降序排列;根据其他语料中的高频、低价值的停用词构建停用词表,排除停用词表中的所有单词,再选出相似性得分最高的三个单词作为该句的候选关键词;
S145、使用基于类别修正的TD-IDF算法完成关键词统计:使用一种基于类别修正的TD-IDF词频统计方法完成最终类别关键词的统计,公式如下:
TF-IDFj(wi)=TFj(wi)×IDFj(wi)
TFj(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,定义如下:
其中count(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的次数,∑count(w)表示药物相互作用类别为j的文本中总的候选关键词的数目;
IDFj(wi)是基于类别修正的逆文本频率指数,其定义如下:
其中P(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率,P′(wi)表示单词wi在除j以外的药物相互作用类别中出现的概率之和;
在为每个药物相互作用类别下的词汇完成基于类别修正的TF-IDF值的计算后,选择每个类别下TF-IDF值最高的十个单词作为该类别的关键词集;
S146、获取关键词向量:将DDIExtraction2013挑战数据集按照四个正向药物相互作用类别进行分类,得到类别相关的所有语句,并使用word2vec模型分别在四个语料库上进行预训练,得到4个类别相关的静态词向量表;
按照步骤S145得到的每一药物相互作用类别的关键词集,分别从对应的类别相关的静态词向量表中,按照关键词集检索获得每一个关键词的低维嵌入向量,称为关键词向量k。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210628078.2/1.html,转载请声明来源钻瓜专利网。





