[发明专利]一种基于对比学习的关系抽取方法在审
| 申请号: | 202211136425.6 | 申请日: | 2022-09-19 |
| 公开(公告)号: | CN115496072A | 公开(公告)日: | 2022-12-20 |
| 发明(设计)人: | 田侃;赵卓;张晨;吴涛;徐敖远;崔灿一星;李之赞;梁威威 | 申请(专利权)人: | 重庆中国三峡博物馆 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N5/02;G06N3/04 |
| 代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王诗思 |
| 地址: | 400015 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对比 学习 关系 抽取 方法 | ||
1.一种基于对比学习的关系抽取方法,其特征在于,包括以下步骤:
S1.构建基于对比学习的关系抽取模型,其包括嵌入层、Bi-LSTM层、GCN层、线性连接层和输出层;
S2.获取无标签文本数据集,采用Glove词典进行词嵌入后通过SciPy Parser工具进行句子依存结构分析,转化得到无标签文本语义依存图集;
S3.获取带标签关系抽取数据,采用Glove词典进行词嵌入后通过SciPy Parser工具处理得到标签关系抽取文本语义依存图集;
S4.采用无标签文本数据集和无标签文本语义依存图集对关系抽取模型进行预训练;
S5.采用带标签关系抽取数据集和标签关系抽取文本语义依存图集,对S4预训练好的关系抽取模型进行微调训练;
S6.将待抽取文本数据输入微调训练完成的关系抽取模型,得到关系抽取结果。
2.根据权利要求1所述的一种基于对比学习的关系抽取方法,其特征在于,预训练的具体过程为:
S11.选取无标签文本语义依存图集中的任一无标签文本语义依存图作为第一依存图,则其余无标签文本语义依存图作为第二依存图;第一依存图和第二依存图组成负样本对;
S12.对第一依存图进行混合随机删除边和随机遮掩特征处理,得到第一数据增强图和第二数据增强图,第一数据增强图和第二数据增强图组成正样本对;
S13.获取第一依存图对应的无标签文本的第一词向量表示,将第一词向量表示输入Bi-LSTM层得到第一上下文特征;
S14.将第一上下文特征、正样本对和负样本对输入GCN层训练GCN编码器,通过最大化正样本对之间的互信息训练GCN编码器参数,采用对比损失函数计算损失值进行反向传播,直至GCN编码器收敛。
3.根据权利要求2所述的一种基于对比学习的关系抽取方法,其特征在于,对比损失函数表示为:
其中,N表示无标签文本语义依存图总数,对无标签文本语义依存图集进行数据增强,得到N对正样本对,此时共有2N个样本;sim()表示余弦相似度计算函数,zi表示第i个无标签文本语义依存图数据增强后的正样本经过GCN编码器后的输出,zj表示与zi处于同一正样本对中的另一个正样本经过GCN编码器后的输出,zk表示剩余2N-2个样本经过GCN编码器后的输出,τ表示超参数。
4.根据权利要求1所述的一种基于对比学习的关系抽取方法,其特征在于,微调训练的具体过程包括:
S21.获取带标签关系抽取数据集中的关系抽取文本的词向量表示,并将其输入Bi-LSTM层获取关系抽取上下文特征;
S22.将关系抽取上下文特征和关系抽取文本对应的标签关系抽取文本语义依存图输入GCN层,得到长期依赖特征;
S23.通过线性连接层剔除长期依赖特征中的无关特征,得到最终输出,采用交叉熵损失函数计算损失值进行反向传播,直至模型收敛。
5.根据权利要求4所述的一种基于对比学习的关系抽取方法,其特征在于,GCN层中GCN编码器的隐藏层的计算公式表示为:
其中,表示GCN编码器第l层的隐藏表示,Aij表示标签关系抽取文本语义依存图中节点vi与节点vj间的边,W(l)表示GCN编码器第l层的权重矩阵,表示GCN编码器第l层的输入,b(l)表示GCN编码器第l层的偏置向量,ρ表示激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆中国三峡博物馆,未经重庆中国三峡博物馆许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211136425.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轧钢方法
- 下一篇:LED驱动芯片四倍频电路





