[发明专利]一种基于对比学习的关系抽取方法在审

专利信息
申请号: 202211136425.6 申请日: 2022-09-19
公开(公告)号: CN115496072A 公开(公告)日: 2022-12-20
发明(设计)人: 田侃;赵卓;张晨;吴涛;徐敖远;崔灿一星;李之赞;梁威威 申请(专利权)人: 重庆中国三峡博物馆
主分类号: G06F40/30 分类号: G06F40/30;G06N5/02;G06N3/04
代理公司: 重庆辉腾律师事务所 50215 代理人: 王诗思
地址: 400015 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 对比 学习 关系 抽取 方法
【说明书】:

发明涉及自然语言处理中关系抽取技术领域,具体涉及一种基于对比学习的关系抽取方法;包括构建基于对比学习的关系抽取模型;获取无标签文本数据集和带标签关系抽取数据,通过SciPy Parser工具处理分别得到无标签文本语义依存图集和标签关系抽取文本语义依存图集;采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练;采用带标签关系抽取数据集和标签关系抽取文本语义依存图集,对预训练好的关系抽取模型进行微调训练;将待抽取数据输入微调训练完成的关系抽取模型,得到关系抽取结果;本发明将关系抽取标签数据有监督学习和无标签文本自监督学习潜在语义特征结合起来,提取适用于关系抽取的丰富的特征。

技术领域

本发明涉及自然语言处理中关系抽取技术领域,具体涉及一种基于对比学习的关系抽取方法。

背景技术

随着人工智能和大数据时代的到来,互联网上信息增长速度越来越快,如何高效快速地从非结构化文本中提取有效的信息是学者们研究的重点。文本信息抽取包含实体抽取,关系抽取,事件抽取,因果抽取等。关系抽取是指从非结构化的文本中抽取出实体对之间的三元组信息,即实体l,实体2,关系。关系抽取作为自然语言处理中一项常见且重要的子任务,目前已被成功用于生物医学知识发现、知识图谱领域和问答领域等诸多自然语言处理领域。

现有关系提取模型或方法可大体分为两类:序列模型和依赖关系模型。序列模型主要针对单词序列进行建模,而依赖关系模型则是以句法依存关系树为基础,构建依赖关系模型。相对于序列模型而言,依赖关系模型可以利用句法依存树提取出句子中隐藏的非局部语法关系,进而建立句内长距离的依赖关系,更好建模出句子的结构信息。

传统有监督学习训练模型的方法对标签过度依赖,尤其在训练数据稀缺的情况下泛化能力较差。自监督学习利用数据本身提供的信息设置代理任务从而提供替代监督信号,使模型能够从未标记数据中学习到潜在的特征表示,从而在下游任务上获得更好的性能和鲁棒性,在图像领域的图片分类任务上已经超越有监督训练模型。

发明内容

基于以上方法的思想和存在的问题,结合所存在方法的优缺点,本发明提出一种基于图对比学习与双向长短时记忆神经网络结合的关系抽取方法,基于文本的句法依赖结构构建图模型,通过预训练加微调的学习范式,首先利用图对比学习在大量无标签文本数据训练自监督模型,获得句子潜在的特征表示,然后进一步在含有关系类别标签数据中微调模型,提取句子中结构信息和时序上下文信息,从而更全面地建模文本的特征表示,最终实现关系抽取。

一种基于对比学习的关系抽取方法,包括以下步骤:

S1.构建基于对比学习的关系抽取模型,其包括嵌入层、Bi-LSTM层、GCN层、线性连接层和输出层;

S2.获取无标签文本数据集,采用Glove词典进行词嵌入后通过SciPy Parser工具进行句子依存结构分析,转化得到无标签文本语义依存图集;

S3.获取带标签关系抽取数据,采用Glove词典进行词嵌入后通过SciPy Parser工具处理得到标签关系抽取文本语义依存图集;

S4.采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练;

S5.采用带标签关系抽取数据集和标签关系抽取文本语义依存图集,对S4预训练好的关系抽取模型进行微调训练;

S6.将待抽取文本数据输入微调训练完成的关系抽取模型,得到关系抽取结果。

进一步的,预训练的具体过程为:

S11.选取无标签文本语义依存图集中的任一无标签文本语义依存图作为第一依存图,其余无标签文本语义依存图作为第二依存图;第一依存图和第二依存图组成负样本对;

S12.对第一依存图进行混合随机删除边和随机遮掩特征处理,得到第一数据增强图和第二数据增强图,第一数据增强图和第二数据增强图组成正样本对;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆中国三峡博物馆,未经重庆中国三峡博物馆许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211136425.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top