[发明专利]基于双通道双向LSTM-CRF网络的触发词识别方法有效
申请号: | 201911130490.6 | 申请日: | 2019-11-19 |
公开(公告)号: | CN111222318B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 陈一飞;孙玉星 | 申请(专利权)人: | 南京审计大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06N3/045;G06N3/0442;G06N3/047;G06N3/08 |
代理公司: | 南京华恒专利代理事务所(普通合伙) 32335 | 代理人: | 裴素艳 |
地址: | 210012 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双通道 双向 lstm crf 网络 触发 识别 方法 | ||
本发明公开了一种基于双通道双向LSTM‑CRF网络的触发词识别方法,首先使用双通道输入层分别输入的线性及非线性嵌入向量特征,在随后的双向LSTM层中提取更高级的抽象特性,这些产生的线性及非线性的抽象特征在池化层中选择融合,最后利用融合的特征训练CRF层,用于最终序列标记。对于生物医学文本,获取其依存树解析及词性标注,将从依存树获取的非线性上下文关系与线性上下文一起作为训练双通道双向LSTM‑CRF网络模型的输入序列,得到输入序列的最佳标注序列,根据最佳标注序列在生物医学文本中标注事件触发词。本发明可有效识别生物医药文本中事件触发词。
技术领域
本发明涉及一种基于双通道双向LSTM-CRF网络的触发词识别方法,属于数据挖掘技术领域。
背景技术
近年来,随着人们对生物医学研究兴趣的增长,大量的文献已经在网上发表。因此,生物医学文本挖掘在自动跟踪这些生物医学论文中的新发现和理论方面的应用研究日益增多。这些生物医学文本任务包括命名实体(如提及的基因和蛋白质)、识别、实体之间的关系(如蛋白质相互作用)、提取和事件(如基因转录和调节)提取等。
生物医学事件提取是指从文本中自动提取生物医学关系、功能和过程的结构化表示。自Bionlp'09和Bionlp'11共享任务以来,事件提取已经成为一个研究热点。它将每个事件的结构定义为任意数量的参与者,以指示分子水平上的功能和过程,例如:调节和磷酸化。当一个给定的蛋白质可以调节一个基因的表达,并且它的产物反过来参与一些磷酸化过程时,这两个事件就会发生。在这两个共享任务中,选择了9种常见的生物分子事件,涉及蛋白质和基因的生物分子事件是生物系统图景的重要组成部分。除此之外,在MLEE语料库中,从分子水平到整个有机体的多个层次的事件都被注释。事件类型已扩展到19种。在不久的将来,为了对生物系统进行全面的了解,可能会从生物组织的多个层次上提取越来越多的生物医学事件。能自动识别文本中的生物医学事件成为迫切的需要。
事件提取任务通常包含两个主要步骤:标识事件触发词,然后标识事件参数。触发词的识别是事件提取的第一步,也是最为关键的一步,旨在识别指示事件的文本块,并作为一个预测器。事件提取性能完全依赖于已识别的触发词,研究显示,有超过60%的事件抽取错误要归因于触发词识别阶段。
事件触发识别方法可以分为基于规则、基于字典匹配和基于机器学习(ML)的方法。在基于ML的方法中,条件随机域(CRF)、支持向量机(SVM)和深度神经网络(DNN)模型已能较成功地用来构建事件触发识别系统。其中,CRF及SVM方法构建触发词识别模型时,通常需要通过人工的方法来总结和提取特征,这种方法代价比较大,并且系统的泛化能力也比较差。这些特征中包括了触发词的形态学特征、词干、词性、句子特征、语法特征及位置特征等信息。为了解决触发词识别过程中,人工设计特征这一繁琐过程的问题,基于神经网络的深度学习方法最近成为研究的热点。DNN一般以词嵌入向量作为模型的输入,词嵌入向量避免了大量的人工特征设计问题。网络模型在建立过程中可以通过训练,自动学习抽象的特征,获取词与词之间的语义信息。这一优势使得DNN在事件触发识别领域得到了广泛的应用。其中,LSTM(Long Short Term Memory)网络将触发词识别过程看作是一个序列标记问题,其通过在隐藏层各神经单元中增加记忆单元,使这个序列上的记忆信息可控,这样网络具备了长期记忆功能,成为是目前的研究热点。
目前,常用来作为LSTM网络输入的词嵌入向量只能反映词与词之间线性上下文语义关系。但是,除此之外,生物医学事件触发词还需要更多来自依存树为基础的上下文的信息。依存树将句子分析成一棵句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。由依存树描绘的上下文可以捕捉到线性上下文难以获得的非线性词间关系。因此,与线性上下文信息相比,非线性依存树上下文可以为触发词识别提供更丰富的语言信息,从而提供更好的识别性能。已经有研究利用skip-gram模型,成功的从文本学习到的基于依存树的依赖词嵌入向量,但仍缺少能很好把他们与线性上下文语义信息在LSTM网络中融合的方法,以得到更好的触发词识别效果。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京审计大学,未经南京审计大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911130490.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:升力装置
- 下一篇:动物药鲜品环氧树脂标本制作方法及标本制作设备