[发明专利]基于对偶对比学习的零样本关系抽取方法和系统有效
申请号: | 202210441073.9 | 申请日: | 2022-04-26 |
公开(公告)号: | CN114548325B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 张世琨;叶蔚;李博;谢睿 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京华创智道知识产权代理事务所(普通合伙) 11888 | 代理人: | 周倩 |
地址: | 100091*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对偶 对比 学习 样本 关系 抽取 方法 系统 | ||
本发明涉及软件检测技术领域,提出一种基于对偶对比学习的零样本关系抽取方法和系统,其中方法包括:获取样本数据集,将样本数据集分为训练集、验证集和测试集;对训练集进行预处理;对预处理后的样本进行编码,结合位置编码,得到各样本的向量表示,对训练集中样本的标签进行编码,得到各标签的向量表示;结合样本层的对比学习和标签层的对比学习计算模型损失,计算模型损失后构建关系抽取模型;将验证集输入关系抽取模型,得到最优关系抽取模型;将测试集输入优化后的关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。根据本发明的方案,保证零样本关系抽取的高效和精准,解决了现有技术中对零样本关系抽取迫切需求的问题。
技术领域
本发明涉及信息检测技术领域,尤其涉及一种基于对偶对比学习的零样本关系抽取方法、系统、电子设备以及计算机可读存储介质。
背景技术
随着互联网的发展,网上的信息爆发式的增长,人们每天不仅要接收大量新的知识和新闻,同时,互联网上每天也会出现海量新的实体和关系类型。而关系抽取技术就是一种通过给定的上下文信息和目标实体(包括头实体和尾实体),判断两个实体之间是何种关系的技术。而在以往的研究中,研究者们主要集中于标签(即头尾实体的关系名称,例如北京和中国的关系是首都,首都即为关系名称)完全确定的关系抽取。即预定义目标关系类型之后,标注大量对应的样本,然后通过训练机器学习或者深度学习模型,来判断新的样本和头尾实体的关系类型。然而,这种方法不适用于关系类型空间持续扩大的场景,也就是说,在关系类型不断增加的实际场景中,我们需要更加灵活的关系抽取方法。随之而来的研究是针对零样本的关系抽取方法,即给定一些新的关系类型,但是没有对应的已标注数据集。模型需要通过自己学习得到了一些知识,结合新的样本上下文信息,来判断关系类型。这种技术需求迫切,其下游应用场景也极为广泛,比如知识图谱动态扩充,问答系统,检索系统等等,但是其实现难度较大。
发明内容
本发明的目的在于解决背景技术中的至少一个技术问题,提供一种基于对偶对比学习的零样本关系抽取方法、系统、电子设备以及计算机可读存储介质。
为实现上述发明目的,本发明提供一种基于对偶对比学习的零样本关系抽取方法,包括:
获取样本数据集,根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集;
对所述训练集进行预处理,得到所述训练集中目标实体的位置编码;
采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示;
结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化所述DeBERTa模型作为关系抽取模型;
将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集;
将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
根据本发明的一个方面,所述位置编码具有两个向量表示,其中第一个向量表示样本中的每个单词与所述目标实体的头实体的相对位置关系,第二个向量表示样本中的每个单词与所述目标实体的尾实体的相对位置关系。
根据本发明的一个方面,采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示为:
使用DeBERTa模型对各样本进行编码,随后拼接所述第一个向量表示和所述第二个向量表示,经过双层神经网络,得到各样本的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210441073.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理系统
- 下一篇:基于随机偏差算法的有源配电网的质量评价方法及装置