[发明专利]基于注意力机制神经网络的药物实体关系抽取方法及系统有效
申请号: | 201811510566.3 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109783618B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 张亮仁;杨波;刘振明;宗晓琳;胡建星 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06N3/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 神经网络 药物 实体 关系 抽取 方法 系统 | ||
本发明涉及一种基于注意力机制神经网络的药物实体关系抽取方法及系统。该方法包括:(1)解析药化文献的文本内容,以句子为基本单位分句,并对句子中的每个词进行向量化表示;(2)将向量化表示的结果输入循环神经网络,通过循环神经网络按照前后双向语序提取句子中各词的关联特征并识别各药化实体;(3)通过注意力机制神经网络获得句子中的词间重要性权重,并将其与步骤(2)的输出合并;(4)将步骤(3)得到的结果输入卷积神经网络,通过卷积神经网络对各药化实体词两两预测类别关系。本发明增加注意力机制关注实体类别信息权重的分类方法能够降低长句中错误的依存分析结果带来的影响,提高药化实体关系抽取准确率。
技术领域
本发明属于自然语言处理领域,涉及一种信息抽取技术,特别涉及一种药物化学文献中药物实体相互作用关系的抽取方法及系统。
背景技术
药化实体关系抽取是药物化学知识库构建中的基本任务,所建系统自动从文献中抽取实体之间的关系,为疾病治疗、药物开发、生命科学研究提供了更为重要的参考价值,为药物化学知识数据库的构建和维护提供更深层的信息。实体关系抽取是药化知识获取的基石,以此构建知识库提高对药物化学现象的认知水平。
由于药化文献中同一语句中的药化实体之间关系比较明确,因此本发明只考虑同一语句中的抽取结果。将关系抽取问题转化为有监督的多类分类问题,目的在于从文献中识别出发生相互作用的药化实体对。相比于其它类型的关系抽取,药化实体相互作用关系抽取的研究较少。现有方法主要有两类:基于规则的方法与基于有监督机器学习的方法。基于有监督机器学习的方法又可细分为基于特征的方法与基于核的方法。由于缺少已标注的药化实体相互作用关系语料库,早期的药化实体相互作用关系抽取方法都是基于规则的。自DDIExtraction2011与DDIExtraction2013评测开始,许多基于机器学习的方法被用于药化实体相互作用关系抽取。
基于规则的方法,这类方法认为表达作用关系的语句结构是固定有限的。Segura-Bedmar的研究是一个典型的基于规则的系统。该系统对语句进行浅层分析检测语句中的语法结构,根据规则将分割复杂长句,然后根据药剂师制定的描述的规则,从短句中抽取相互作用的药化实体对。
基于特征的方法,将关系抽取看作一个分类问题,用各种不同类型的特征显式地将候选关系实例表示成一个特征向量,然后使用有监督的机器学习模型将候选关系实例分类。药化实体相互作用关系抽取中最常用的分类模型是支持向量机。
基于核的方法,核函数的选择对方法性能影响很大。Airola等人采用基于图结构核函数的全路径图核来表示蛋白质关系并建立依存关系图。Chowdhury等人将3个不同的核函数线性加权得到一个复合核函数,用于关系抽取,在DDIExtraction 2013评测的药化实体相互作用关系抽取任务中取得最好的性能。
实践表明基于规则的方法对长句复杂的关系抽取效果不好,而药化领域文献中包含大量同位语、并列结构等复杂结构的长句;制定规则耗时耗力且需要专业领域人员参与;此外,人工编制的规则很难覆盖所有的应用文本场景。现有研究关注基于有监督机器学习的方法,此类方法具有较好的性能与可移植性,但方法依赖于外部的自然语言处理工具,如果外部工具出错会造成错误传播,影响性能。
发明内容
本发明针对上述问题,提出一种有效快捷的基于注意力机制神经网络的药化实体关系抽取方法及系统,目的在于从药化文献中识别出发生相互作用的药化实体对。
目前卷积神经网络模型在文本处理任务中具有较好的性能,本发明引入注意力机制进一步对所关注类别信息赋予重要性权重,降低了具有药化文献语言风格的长句、复杂句所带来错误句法依存信息的影响,提高关系抽取的准确率。
本发明采用的技术方案如下:
一种基于注意力机制神经网络的药物实体关系抽取方法,其步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811510566.3/2.html,转载请声明来源钻瓜专利网。