[发明专利]一种面向关系抽取的句子结构信息获取方法有效
申请号: | 201911355241.7 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111126039B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 秦永彬;杨卫哲;程华龄;陈艳平;黄瑞章;王凯 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/30;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 吴无惧 |
地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 关系 抽取 句子 结构 信息 获取 方法 | ||
本发明公开了一种面向关系抽取的句子结构信息获取方法,所述方法包括如下步骤:步骤一、从数据集中抽取包含两个实体且已知实体语义关系类别的关系提及语句;步骤二、使用实体标记符和分隔符将步骤一中抽取出来的关系提及语句中的实体进行分隔和标记;步骤三、基于预训练字向量查找表或随机字向量查找表对文本进行向量映射;步骤四、通过神经网络对表示文本的向量矩阵进行卷积操作提取句子结构特征;步骤五、对卷积后的结果实施最大池化操作,进一步获取抽象特征;步骤六、全连接、Softmax层预测分类结果。通过在卷积神经网络之前对句子实体进行标记和分隔,能够更好地得到各部分内容的语义信息,获取到以实体为中心的句子结构特征,进行关系抽取,可以达到一个比较好的性能。
技术领域
本发明涉及一种向神经网络中输入数据的处理方法,尤其涉及一种面向关系抽取的句子结构信息获取方法,属于自然语言处理技术领域。
背景技术
随着计算机在世界范围内快速普及以及互联网技术的迅猛发展,使得视频、音频、图片、文本等各种各样的数据激增,大量的信息以电子数字化形式出现在用户面前。为了应对信息爆炸带来的严峻挑战,迫切需要专业的自动化工具从海量的数据中提取真正有价值的信息,信息抽取应运而生。信息抽取技术是自然语言处理领域中应用广泛的信息处理技术,关系抽取是文本信息抽取中的重要组成部分。命名实体指的是文本中表示人名、地名和组织名的专有名词,而关系抽取则是指从标记好实体对的文本中抽取出该文本中实体对之间存在的语义关系。例如ACE RDC 2005数据集中句子“但是据欧洲安全与合作组织估计,至少还有1000人被关在牢里”中,对于该句子中存在的两个命名实体“1000人”和“牢”,关系抽取系统能识别出这两实体之间存在一个“PHYS”(地理位置关系)的关系。
信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息,主要任务有实体抽取、关系抽取、事件抽取。其中,关系抽取研究的主要内容是从文本内容中挖掘出实体与实体之间的语义关系,作为文本中重要的语义知识载体,关系抽取在信息抽取中扮演重要角色,其作为信息抽取的子任务之一被提出之后,便受到学术界的高度重视,并进行了一系列的广泛研究,其主要目的是对文本中已识别出的实体对判别在该语义中存在的语义关系,进一步地为自动问答、意见挖掘、语义分析等众多自然语言处理任务提供重要的语义支撑。
文本中的命名实体是以连续字符的表现形式存在,在文本中对实体进行识别之后并进行标记然后再利用关系抽取方法对该实体对进行语义关系识别,我们的方法主要可以利用的是通过不同的文字表示方法来消除同一个字在不同的语境中表达的不同含义所带来的歧义问题。因此,文本中实体的标记存在使得原本统一的整体出现了分割,我们可以通过由实体分割后的各部分语义提取其特征然后抽取实体语义关系。由不同的语境中的相同文字往往富含不同的语义信息,为保证原始文本语义的完整性,文本中由实体分割后的各个部分进行分别池化来提取特征是必要的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911355241.7/2.html,转载请声明来源钻瓜专利网。