[发明专利]基于主动学习的文本关系抽取方法、电子设备及存储介质有效
申请号: | 202310692938.3 | 申请日: | 2023-06-13 |
公开(公告)号: | CN116431757B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 袁得嵛;叶乃夫;李欣;孙海春;罗婷;倪培峰;张炜琛;于伟 | 申请(专利权)人: | 中国人民公安大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/216;G06F40/295;G06F40/30;G06N3/045;G06N3/0455;G06N3/0442;G06N3/0464;G06N3/047;G06N3/048;G06N3/091 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 黄利萍 |
地址: | 100045 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主动 学习 文本 关系 抽取 方法 电子设备 存储 介质 | ||
本发明提供了一种基于主动学习的文本关系抽取方法、电子设备和存储介质,方法包括:获取任一训练样本d中的初始实体集S0supgt;d/supgt;;获取S0supgt;d/supgt;subgt;i/subgt;的关系类别概率集P0supgt;d/supgt;subgt;i/subgt;;获取S0supgt;d/supgt;subgt;i/subgt;对应的分类价值V0supgt;d/supgt;subgt;i/subgt;=ln(P01supgt;d/supgt;subgt;i/subgt;/(P02supgt;d/supgt;subgt;i/subgt;+σ0supgt;d/supgt;subgt;i/subgt;)),如果V0supgt;d/supgt;subgt;i/subgt;>0,则赋予S0supgt;d/supgt;subgt;i/subgt;第一标签,如果V0supgt;d/supgt;subgt;i/subgt;<0,则赋予S0supgt;d/supgt;subgt;i/subgt;第二标签;对具有标签的训练样本d中的冗余实体进行过滤处理,得到过滤处理后的训练样本d;基于过滤处理后的H个训练样本,对初始文本关系抽取模型进行训练,得到目标文本关系抽取模型;利用所述目标文本关系抽取模型对需要抽取实体关系的文本中的实体关系进行抽取。本发明能够提高文本关系抽取的效果。
技术领域
本发明涉及计算机技术领域,特别是涉及一种基于主动学习的文本关系抽取方法、电子设备及存储介质。
背景技术
文本关系抽取作为自然语言处理的一项重要任务,能够从文本数据中识别出结构化的要素数据,实现从文本数据中抽取人员相关命名实体,通过分布式处理技术实现将自然语言描述的文本数据快速进行结构化处理,形成可以被计算机读懂和理解的知识信息。在神经网络中关系抽取无需考虑特征工程方面的问题。现阶段在文本关系抽取任务中,使用的数据集的质量会影响到深度学习模型的效果。此外,神经网络的模型瓶颈是限制文本关系抽取准确性的重要因素。
当前,通常采用词性标注的方法对文本进行预处理,获得标签数据。使用词向量预处理模型,将标签数据转化为词向量并输入神经网络训练模型中。在关系抽取任务中主流的神经网络模型包括卷积神经网络(CNN)、循环神经网络(RNN)、长短记忆递归神经网络(LSTM),采用注意力机制(Attention Mechanism)对文本特征进行提取。特征提取后经Softmax函数进一步权重语义特征,最终输出实体关系对。
当前文本关系的抽取的难点包括:面对复杂的文本实体数据,如何对文本实体样本的价值进行衡量和科学化的表示,并能够实现高低价值样本的分类。以及如何提高领域文本关系抽取准确率和效率,降低噪声数据的影响。
发明内容
针对上述技术问题,本发明采用的技术方案为:
本发明实施例提供一种基于主动学习的文本关系抽取方法,所述方法包括如下步骤:
S100,获取任一训练样本d中的初始实体集S0d={S0d1,S0d2,……,S0di,……,S0dmd}和关系类别集Rd={Rd1,Rd2,……,Rdj,……,Rdnd},S0di为S0d中的第i个实体,i的取值为i到md,md为训练样本d中的实体数量,Rdj为Rd中的第j个关系类别,j的取值为1到nd,nd为训练样本d中的关系类别的数量;d的取值为1到H,H为训练样本的数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民公安大学,未经中国人民公安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310692938.3/2.html,转载请声明来源钻瓜专利网。