[发明专利]一种基于神经网络的开放式关系抽取方法在审
申请号: | 201910928309.X | 申请日: | 2019-09-28 |
公开(公告)号: | CN110956040A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 张辉;王德庆;梁满庭;郝瑞 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦;贾兴昌 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 开放式 关系 抽取 方法 | ||
本发明公开了一种基于神经网络的开放式关系抽取方法,包括如下步骤:将微生物领域数据中的生物实体概念替换为相应的概念类型得到输入数据;构建层级递归神经网络解码器;将得到的输入数据输入到层级递归神经网络解码器,得到半结构化的输出数据。该方法针对微生物领域数据特点,对原始数据中的微生物概念进行了提换,缓解了领域专业词汇的稀疏性问题,使用构建的层级递归神经网络解码器对输入数据进行处理,可以很好地完成输出“半结构化数据”的任务。
技术领域
本发明涉及一种基于神经网络的开放式关系抽取方法,属于类脑计算技术领域。
背景技术
随着互联网技术和生命科学领域技术的迅猛发展,大量生物医学文献正在呈现出爆炸式的增长态势。而在大数据盛行的今天,生物医学领域的大量非结构化的纯文本数据,也成为了蕴含了人类智慧结晶的巨大矿藏。随着对海量知识挖掘整理的需求日益迫切,构建知识库为最终目标的关系抽取相关技术应运而生。
传统的生物领域关系抽取方法需要预先定义实体关系的分类体系,接着利用各种规则模板进行关系实例识别和关系元组的抽取。然而,由于缺乏足够的依据,对于微生物这样体系并不成熟的细分领域而言,预先定义科学的实体关系类型的难度很大。开放式关系抽取技术作为一种无指导的方法,可以在无须预定义的条件下,实现关系的发现与抽取。这使之成为一种在未成熟细分领域进行关系抽取的首选方法。
近年来,开放式关系抽取方法主要集中于对句法关系树等特征的识别。虽然相较于传统的手工规则,语法规则等方法已有突破,却已达到瓶颈。与此同时,神经网络模型在近几年发展迅猛,在自然语言处理的多个领域获得了突破与成功,这也为开放式关系抽取技术的进一步提供了一种新的方法。
开放式关系抽取任务要求模型具有输出半结构化数据的能力。而目前的神经网络模型多以RNN(无结构化输出),Tree RNN(完全结构化输出)等模型为主。这些模型结构并不能直接适用于开放式关系抽取任务。
发明内容
针对现有技术的不足,本发明所要解决的技术问题在于提供一种基于神经网络的开放式关系抽取方法。
为实现上述发明目的,本发明采用下述的技术方案:
一种基于神经网络的开放式关系抽取方法,包括如下步骤:
将微生物领域数据中的生物实体概念替换为相应的概念类型得到输入数据;
构建层级递归神经网络解码器;
将得到的输入数据输入到层级递归神经网络解码器,得到半结构化的输出数据。
其中较优地,将微生物领域数据中的生物实体概念替换为相应的概念类型得到输入数据,包括如下步骤:
以词典匹配的方式对文本中的微生物领域概念进行识别;
标注语句中每个领域内单词所属的概念类型;
识别生物学领域数据中的生僻词语,将其替换为对应的概念类型,得到输入数据。
其中较优地,构建层级递归神经网络解码器,包括如下步骤:
根据层级递归神经网络划分层级,在顶层设置内部解码单元;
在除顶层之外的每个层级均设置共轭解码单元;
所述共轭解码单元包括边缘判断分类器、内部解码单元和内部编码单元;
其中,所述边缘判断分类器用于感知所在层级的划分边界;
所述内部编码单元对来自于下一层的输入进行编码,并在到达当前层的层级的划分边界时,向当前层的上一层传递编码信息;
所述内部解码单元根据上一层的输入、内部编码单元下一层的输出以及内部解码器的隐藏状态,对内部解码单元下一层的输出进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910928309.X/2.html,转载请声明来源钻瓜专利网。