[发明专利]基于主动学习的文本关系抽取方法、电子设备及存储介质有效
申请号: | 202310692938.3 | 申请日: | 2023-06-13 |
公开(公告)号: | CN116431757B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 袁得嵛;叶乃夫;李欣;孙海春;罗婷;倪培峰;张炜琛;于伟 | 申请(专利权)人: | 中国人民公安大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/216;G06F40/295;G06F40/30;G06N3/045;G06N3/0455;G06N3/0442;G06N3/0464;G06N3/047;G06N3/048;G06N3/091 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 黄利萍 |
地址: | 100045 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主动 学习 文本 关系 抽取 方法 电子设备 存储 介质 | ||
1.一种基于主动学习的文本关系抽取方法,其特征在于,所述方法包括如下步骤:
S100,获取任一训练样本d中的初始实体集S0d={S0d1,S0 d 2,……,S0 di,……,S0d md}和关系类别集Rd={Rd1,Rd2,……,Rdj,……,Rdnd},S0di为S0d中的第i个实体,i的取值为1到md,md为训练样本d中的实体数量,Rdj为Rd中的第j个关系类别,j的取值为1到nd,nd为训练样本d中的关系类别的数量;d的取值为1到H,H为训练样本的数量;
S200,获取S0di的关系类别概率集P0di={P0di1,P0di2,……,P0dij,……,P0dind},P0dij为S0di属于Rdj的概率;
S300,获取S0di对应的分类价值V0di=ln(P01di/(P02di+σ0di)),如果V0di>0,则赋予S0di第一标签,如果V0di<0,则赋予S0di第二标签;得到具有标签的训练样本d;P01di为P0di中的最大者,P02di为P0di中的次大者,σ0di为基于P0di得到的离散值,σ0di=((∑ndj=1(AvgP0di-P0dij)2)/nd)1/2,AvgP0di为P0di的平均值;
S400,对具有标签的训练样本d中的冗余实体进行过滤处理,得到过滤处理后的训练样本d;
S500,基于过滤处理后的H个训练样本,对初始文本关系抽取模型进行训练,得到目标文本关系抽取模型;
S600,利用所述目标文本关系抽取模型对需要抽取实体关系的文本中的实体关系进行抽取。
2.根据权利要求1所述的方法,其特征在于,所述初始文本关系抽取模型为改进的BERT-BiGRU+-CRF模型,其中,CRF模型的激活函数YeLU(x)满足如下条件:
如果x≥0,则YeLU(x)=x,如果x<0,则YeLU(x)=-(-x)1/2,x表示改进的BERT-BiGRU+-CRF模型中的隐藏层状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民公安大学,未经中国人民公安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310692938.3/1.html,转载请声明来源钻瓜专利网。