[发明专利]基于多源语义表示融合的弱监督关系抽取方法有效
申请号: | 202010607265.3 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111737497B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 刘宇;倪骏;单世民;赵哲焕;徐秀娟;刘日升;王恺 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/211;G06F40/253;G06F40/30;G06N5/00;G06N3/04 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 表示 融合 监督 关系 抽取 方法 | ||
本发明提供一种基于多源语义表示融合的弱监督关系抽取方法。首先,采用分布式词向量初始化文本语句的上下文语义特征,运用自然语言处理工具解析出描述文本特性的海量离散化符号特性,并设计关系抽取任务中语句实例与特性间通用的一阶逻辑规则。之后,将逻辑规则与因子图相结合以建立文本特性与语句实例间的联系,并通过联合统计推理从人类感知的角度建模,学习描述文本特性的低维关系语义向量;并使用双向门控循环单元编码语句内容本身的语义信息作为上下文内容语义向量。最后,在神经网络中微调文本特性语义向量,融合两种不同特征源的向量表示得到更具鲁棒性的文本语义特征表示,与实体对嵌入表征一同指导弱监督关系抽取工作。
技术领域
本发明属于信息抽取技术领域,适用于通用领域的关系抽取,特别涉及在弱监督对应的训练样本不准确、不均衡条件下语句中“实体-关系-实体”三元组关系的抽取,具体为基于多源语义表示融合的弱监督关系抽取方法。
背景技术
在现实生活中,非结构化的文本信息如同暗物质一般,埋藏在海量的网络数据中,因缺乏结构而难以处理。深入研究实体关系抽取技术是希望借助计算机高效处理文本的能力,从海量的、无结构的网络文本中提取出格式统一的关系事实表述。通过挖掘目标实体在文本语句中的语义信息,预测实体间存在的特定的关系表达,而后运用得到的众多关系事实构建并完善现实中用于检索与决策的知识体系。关系抽取将大量无结构的文本语句转化为结构化的“实体-关系-实体”三元组列表存储,构建多关系的知识体系,帮助人们快速有效地检索所需信息,发现事物间的联系,并且挖掘出实体间的三元组关系,能够为构建知识图谱、实现信息检索以及问答系统等诸多任务提供了坚实的数据基础,但与此同时,关系抽取的建模却面临着缺乏大量真实训练数据这一巨大的挑战。
弱监督关系抽取是关系抽取任务中比较贴合实际应用需求的一个研究分支,它能够在人工成本较低的情况下构建关系抽取方法。但为了节约人工成本,弱监督信号往往因监督不足,使得关系抽取方法在训练过程中面临错误标记、样本分布不均等难题。现有基于弱监督学习的关系抽取算法大都关注原始语料内容嵌入信息以缓解监督资源不足的影响,缺乏对不同层面的语义信息整合与充分利用,语义特征的表现形式比较单一,容易导致抽取结果严重偏向训练样本较多的关系类型。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种融合多源语义表示的弱监督关系抽取方法,将传统自然语言处理工具解析出的文法依赖树、词性等包含人类感知的文本特性与文本内容的嵌入词向量语义表示相结合,定义通用一阶逻辑,提供更加灵活的手段整合离散文本特性,使得离散的文本特性知识能够在简单的图结构中被整合为低维语义表示。通过不同语义特征源,不同的表示方法在神经网络反馈机制下的微调,帮助分析更为复杂的语法结构,提高关系类型抽取的精确性与多样性。本发明从不同角度出发,在句子级别上进行语义信息表示融合以增强关系抽取方法对弱监督信号的约束能力,在保证抽取精确性表现优异的同时,能够发现更多训练样本稀少的关系类型实例。
为了实现上述目的,本发明采用的技术方案是:
基于多源语义表示融合的弱监督关系抽取方法,具体步骤如下:
(1)数据预处理:提取词语的向量初始化表示作为文本内容特征并选取自然语言工具解析出的句法、词法等离散特征作为文本特性,设计关系抽取任务中语句实例和离散特征间关联的通用一阶逻辑规则;本发明将每个语句实例中的符号化自然语言文本特性以及符号化表示的目标实体识别类型设置为通用一阶逻辑规则,辅助弱监督关系抽取工作,并支持灵活编写其他逻辑规则。
(2)特征编码表示:定义基于逻辑约束的弱监督语义表示模块进行统计推理,以整合数据预处理得到的离散符号化文本特性生成语句的文本特性低维语义表示向量,作为关系抽取工作的监督特征源;该模块既能学习包含人类感知的离散文本特性权重,又能推理出语句实例全局一致的低维关系语义表示,有利于采纳更多离散弱监督知识的语义信息。同时,预处理的文本内容的词向量表示通过双向门控循环单元编码作为关系抽取的另一监督特征源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010607265.3/2.html,转载请声明来源钻瓜专利网。