[发明专利]基于双通道双向LSTM-CRF网络的触发词识别方法有效
申请号: | 201911130490.6 | 申请日: | 2019-11-19 |
公开(公告)号: | CN111222318B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 陈一飞;孙玉星 | 申请(专利权)人: | 南京审计大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06N3/045;G06N3/0442;G06N3/047;G06N3/08 |
代理公司: | 南京华恒专利代理事务所(普通合伙) 32335 | 代理人: | 裴素艳 |
地址: | 210012 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双通道 双向 lstm crf 网络 触发 识别 方法 | ||
1.一种基于双通道双向LSTM-CRF网络的触发词识别方法,其特征在于,
应用于生物医药事件触发词的识别;包括如下步骤:
步骤1,对生物医学文本训练集进行文本预处理,得到依存树解析及词性标注,将从依存树获取的非线性上下文关系与线性上下文一起作为触发词识别的输入;
步骤2,对测试集采用同步骤1的文本预处理方法;
步骤3,从PubMed摘要文章学习到的预先训练的嵌入向量X1和预训练嵌入向量查找表Y1;
步骤4,用步骤1中预处理过的训练数据构建双通道双向LSTM-CRF网络模型的线性上下文嵌入通道层、非线性上下文嵌入通道层、双向LSTM层、最大池化层、全连接层及CRF层;
在训练数据集上,迭代优化神经网络各层之间的连结权值;
步骤5,训练结束后,将测试数据输入已训练的双通道双向LSTM-CRF网络模型,得到输入序列的最佳标注序列;
步骤6,利用模型输出的最佳标注序列在生物医学文本中标注事件触发词;
步骤4中,所述线性上下文嵌入通道层:对于输入句s,每个输入单词wi在线性通道输入层通过一系列查找表转换为相应的实数特征向量,即转换为以下向量的级联表示:
(1)嵌入词特征向量Ew_L:利用嵌入词查找表将输入句中的每个单词wi映射到一个嵌入词向量该向量包含来自X1中线性上下文的语义信息;
(2)字符嵌入特征向量Ec_L:使用一个LSTM网络来学习每个单词在字符级别的拼写特征;该LSTM网络参数随机初始化,输入序列xt为组成单词wi的所有字符,其中t为单词所含字符数;输出为字符级嵌入向量序列ht;字符嵌入特征向量Ec_L,能从输入单词wi的字符序列中提取拼写特征信息;
(3)词性嵌入特征向量Ep_L:使用词性来扩展单词嵌入特征;利用嵌入特征查找表将输入句中的每个单词wi的词性标注映射到一个嵌入词向量该向量包含来自X2中词性在线性上下文种相关性信息,从输入单词中提取上下文句法信息;查找表矩阵随机初始化;
(4)命名实体类型嵌入特征向量Ee_L:通过嵌入特征查找表将输入语句线性上下文中每个单词wi的命名实体类型映射到嵌入向量嵌入特征查找表随机初始化,其中r6为所有命名实体种类的数量,r7为该嵌入词向量维度;
因此,经过线性上下文嵌入通道层,每个输入单词wi转换为线性向量串
步骤4中,所述非线性上下文嵌入通道层:对于输入句s,嵌入层通过一系列查找表将每个输入特征转换为实数表示向量;因此,每个输入单词wi转换为以下向量的级联表示:
(1)基于依存树的词嵌入特征向量Ew_NL:输入句中的每个词都被映射为一个基于依存树的词嵌入向量;利用嵌入词查找表将输入句中的每个单词wi映射到一个非线性嵌入词向量
(2)基于依存树的词性嵌入特征向量Ep_NL:使用词性来扩展单词嵌入,词性将输入语句依存树所对应的依存树上下文中每个单词的pos标记映射到pos嵌入向量,该pos嵌入向量从输入单词中提取句法信息;利用嵌入特征查找表将输入句中的每个单词wi的词性标注映射到一个非线性词性嵌入向量该向量包含来自Y2中词性非线性上下文的词性相关性信息;查找表矩阵随机初始化;
(3)基于依存树的命名实体类型嵌入特征向量Ee_NL:将输入语句依存树所对应的非线性上下文中每个单词的命名实体类型映射到嵌入向量,该嵌入向量从输入中提取与领域相关的非线性信息;通过嵌入特征查找表Y3,将输入语句依存树上下文中每个单词wi的命名实体类型映射到嵌入向量该嵌入向量从输入中提取与领域相关的非线性信息;嵌入特征查找表随机初始化;
因此,经过非线性上下文嵌入通道层,每个输入单词wi转换为非线性向量串
步骤4中,所述双向LSTM层:
(1)线性通道的双向LSTM层:双向LSTM层将线性上下文嵌入通道层的输出xL作为输入,其中,设一个LSTM单元的输入序列是长度t的向量x1,x2,…,xt,它通过应用训练期间学习的非线性变换如公式1所示,得到长度相同的输出序列h1,h2,…,ht;
在每个LSTM状态时间步骤t中,it是输入门,ft是遗忘门,ot是输出门,ct是记忆单元,是候补记忆单元,ht是隐含状态;所有的W和b都是LSTM的可训练参数,σ(·)和tanh(·)表示sigmoid函数和双曲正切激活函数,⊙表示内积;
当输入向量序列xL是前向的,则得到线性前向STM网络输出hF_L;当输入向量序列xL是后向的,则得到线性后向STM网络输出hB_L;将前向和后向的两个LSTM网络的输出级联,得到最终的线性通道的双向LSTM层输出,hL=[hF_L;hB_L];
(2)非线性通道的双向SLTM层:同样的,LSTM层将非线性上下文嵌入通道层的输出xNL作为输入,其中,同样,它通过应用训练期间学习的非线性变换如公式1所示得到长度相同的输出序列;通过将前向和后向LSTM网络的输出hF_NL和hB_NL级联,得到最终的非线性通道的双向LSTM层输出,hNL=[hF_NL;hB_NL];
步骤4中,所述最大池化层:通过前面的两个不同通道的双向LSTM层,分别提取了来自前向和后向两个方向、基于线性和非线性上下文信息的抽象特征;用最大池技术来捕获最有用的特征,通过为每个维度j获取一个最大值,动态的进行特征选择;Fmax是最大池化动态特征输出:
Fmax=max(hjF_L,hjB_L,hjF_NL,hjB_NL) (2)
F=(F1,F2,...,Fn) (3);
步骤4中,所述CRF层:基于输入序列s=(w1,w2,...wn),池化层输出其融合抽象特征序列F,假设标记序列y=(t1,t2,...tn)是CRF层的最终输出;给出了融合抽象特征序列F和标签序列y对于每个训练实例,CRF层定义目标的最大化函数:
其中,f是为每对F和y分配一个分数的函数,表示F的标记序列空间;成本函数cost(F,y′)是根据最大利润原则,即高成本标记y′应受到更大的惩罚;CRF层学习输出标签之间的强依赖性f(F,y),得到最可能的输出标记序列。
2.如权利要求1所述的基于双通道双向LSTM-CRF网络的触发词识别方法,其特征在于,所述步骤4中,使用一个通用的小批量梯度下降的正向和反向训练过程;每次迭代,将整个训练数据分为多个批次,一次处理一个批次;每批包含一个由批量大小参数决定的句子;对于每一批,首先运行双向LSTM-CRF模型正向传递,对LSTM的前进状态和后退状态都进行传递;得到所有位置所有标签的输出;然后,运行CRF层向前和向后传递来计算网络输出和状态转换边缘的梯度;在此之后,将错误从输出向后传播到输入,更新网络参数,包括所有LSTM正向和反向状态的参数,线性、非线性上下文嵌入通道层的随机初始化查找表、CRF的传递参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京审计大学,未经南京审计大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911130490.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:升力装置
- 下一篇:动物药鲜品环氧树脂标本制作方法及标本制作设备