[发明专利]一种指代消解方法、装置、电子设备及介质有效

专利信息
申请号: 202110291727.X 申请日: 2021-03-18
公开(公告)号: CN113011162B 公开(公告)日: 2023-07-28
发明(设计)人: 郭梦非;张徵 申请(专利权)人: 北京奇艺世纪科技有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/30;G06F40/242;G06F16/903;G06N3/084
代理公司: 北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人: 高莺然;马敬
地址: 100080 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 指代 消解 方法 装置 电子设备 介质
【说明书】:

发明实施例提供了一种指代消解方法、装置、电子设备及介质,涉及数据分析技术领域,能够提高指代消解的准确度。本发明实施例包括:识别待预测文本中的人名,将识别出的人名构建为候选集。然后从候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本;预测样本包括:样本标签和将待预测文本中的第三人称代词替换为第一数量个指定标识符后得到的文本,第一数量为预测样本对应的待预测人名包括的字数,预测样本的样本标签为预测样本对应的待预测人名。将预测样本输入指代消解模型,并获取指代消解模型输出的第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为第三人称代词指代的人名。

技术领域

本发明涉及数据分析技术领域,特别是涉及一种指代消解方法、装置、电子设备及介质。

背景技术

在审阅海量的文学作品时,经常借用大数据和算法基础工具对文学作品进行评估分析,例如分析小说中各角色的戏份占比得到各角色的重要程度,以及分析各角色的性格等。但是文学作品中存在大量的第三人称代词,在对文学作品进行分析时,如果不能准确地识别第三人称代词所指代的角色,即不能准确地进行指代消解,则分析结果将大打折扣。

目前常规的方式是利用携带标注的语料训练深度学习网络,得到能够进行指代消解的分类模型。但是语料的标注依赖人工操作,需要耗费大量的时间和人力成本,因此有标注的语料较少,使得分类模型的训练缺少足够的训练样本,导致利用分类模型进行指代消解的准确度较低。

发明内容

本发明实施例的目的在于提供一种指代消解方法、装置、电子设备及介质,以实现提高指代消解的准确度。具体技术方案如下:

第一方面,本发明实施例提供了一种指代消解方法,所述方法包括:

识别待预测文本中的人名,将识别出的人名构建为候选集,所述待预测文本包括至少两个人名和一个第三人称代词;

从所述候选集中选择至少两个待预测人名,分别构建每个待预测人名对应的预测样本;其中,所述预测样本包括:样本标签和将所述待预测文本中的所述第三人称代词替换为第一数量个指定标识符后得到的文本,所述第一数量为所述预测样本对应的待预测人名包括的字数,所述预测样本包括的样本标签为所述预测样本对应的待预测人名;

将构建的各预测样本输入指代消解模型,并获取所述指代消解模型输出的所述第三人称代词指代每个样本标签的概率,将概率最高的样本标签确定为所述第三人称代词指代的人名;

其中,所述指代消解模型为基于样本训练集对神经网络模型进行训练得到的模型,所述样本训练集包括多组训练样本,每组训练样本包括正样本和负样本,所述正样本包括:正样本标签和将样本文本中的一个所述正样本标签替换为第二数量个指定字符后得到的文本,所述正样本标签为所述样本文本中出现至少两次的人名,所述第二数量为所述正样本标签对应的人名包括的字数;所述负样本包括:负样本标签和将所述样本文本中的一个所述正样本标签替换为第三数量个指定字符后得到的文本,所述负样本标签为所述样本文本中出现一次的人名,所述第三数量为所述样本文本中出现一次的人名包括的字数,所述样本文本中被替换的正样本标签位于所述样本文本包括的各人名第一次出现的位置之后。

可选的,所述指代消解模型通过以下步骤训练获得:

将所述样本训练集中的一组训练样本输入所述神经网络模型;

获取所述神经网络模型的输出结果,所述输出结果包括正样本中的指定标识符为正样本标签的概率以及负样本中的指定标识符为负样本标签的概率;

根据所述正样本中的指定标识符为正样本标签的概率以及所述负样本中的指定标识符为负样本标签的概率,计算损失函数值;

根据所述损失函数值,确定所述神经网络模型是否收敛;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110291727.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top