[发明专利]基于对偶对比学习的零样本关系抽取方法和系统有效
申请号: | 202210441073.9 | 申请日: | 2022-04-26 |
公开(公告)号: | CN114548325B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 张世琨;叶蔚;李博;谢睿 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京华创智道知识产权代理事务所(普通合伙) 11888 | 代理人: | 周倩 |
地址: | 100091*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对偶 对比 学习 样本 关系 抽取 方法 系统 | ||
1.基于对偶对比学习的零样本关系抽取方法,其特征在于,包括:
获取样本数据集,根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集;
对所述训练集进行预处理,得到所述训练集中目标实体的位置编码;
采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示;
结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化所述DeBERTa模型作为关系抽取模型;
将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集;
将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
2.根据权利要求1所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,所述位置编码具有两个向量表示,其中第一个向量表示样本中的每个单词与所述目标实体的头实体的相对位置关系,第二个向量表示样本中的每个单词与所述目标实体的尾实体的相对位置关系。
3.根据权利要求2所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示为:
使用DeBERTa模型对各样本进行编码,随后拼接所述第一个向量表示和所述第二个向量表示,经过双层神经网络,得到各样本的向量表示。
4.根据权利要求3所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示为:
获取各所述标签的现有描述文本片段,将各所述描述文本片段进行编码,将编码后的各所述描述文本片段输入所述双层神经网络,通过所述双层神经网络的平均池化层得到各所述标签的向量表示。
5.根据权利要求4所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,所述样本层的对比学习为:
将各样本轮流作为对照样本,将其他未作为所述对照样本时的样本与当前所述对照样本进行对比,与所述对照样本标签相同的样本作为正样本,与所述对照样本标签不同的样本作为负样本。
6.根据权利要求5所述的基于对偶对比学习的零样本关系抽取方法,其特征在于,所述标签层的对比学习为:
将所述训练集中存在的标签轮流作为对照标签,将属于当前所述对照标签的样本作为正样本,不属于当前所述对照标签的样本作为负样本。
7.基于对偶对比学习的零样本关系抽取系统,其特征在于,包括:
数据获取分类模块,获取样本数据集,根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集;
预处理模块,对所述训练集进行预处理,得到所述训练集中目标实体的位置编码;
数据编码模块,采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码,结合所述位置编码,得到各样本的向量表示,对所述训练集中的各样本的标签进行编码,得到各标签的向量表示;
模型构建模块,结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失,计算模型损失后优化所述DeBERTa模型作为关系抽取模型;
模型优化模块,将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型,获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集;
测试模块,将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型,得到语义匹配的结果作为零样本关系抽取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210441073.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理系统
- 下一篇:基于随机偏差算法的有源配电网的质量评价方法及装置