[发明专利]训练实体类型识别模型的方法、实体类型识别方法及装置在审

专利信息
申请号: 202211563437.7 申请日: 2022-12-07
公开(公告)号: CN116304014A 公开(公告)日: 2023-06-23
发明(设计)人: 丁宁;王潇斌;徐光伟;谢朋峻;郑海涛 申请(专利权)人: 阿里巴巴(中国)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/279;G06F40/216;G06F40/237;G06F40/30;G06N5/022;G06N3/0455
代理公司: 北京众达德权知识产权代理有限公司 11570 代理人: 袁媛
地址: 311121 浙江省杭州市余杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 训练 实体 类型 识别 模型 方法 装置
【说明书】:

本申请实施例公开了一种训练实体类型识别模型的方法、实体类型识别方法及装置,涉及深度学习技术领域。其中实体类型识别方法包括:获取待识别文本;利用待识别文本中的实体词生成提示文本;利用待识别文本和提示文本得到输入文本序列输入实体类型识别模型,实体类型识别模型包括预测网络和基于预训练语言模型的编码网络,其中,编码网络提取输入文本序列中各元素的特征表示;预测网络利用各元素的特征表示,预测提示文本中被掩码的内容在词表中各词语上的概率分布,依据概率分布得到待识别文本中的实体词对应的实体类型,词表包括各实体类型对应的标签词。本申请能够提高实体类型识别模型的识别效果。

技术领域

本申请涉及机器学习技术领域,特别是涉及一种训练实体类型识别模型的方法、实体类型识别方法及装置。

背景技术

实体类型识别是自然语言处理领域信息抽取中的重要任务,其目的是将文本中的实体归纳到相应的实体类型中,是信息提取、问答系统、句法分析、机器翻译等众多应用的基础工具。实体类别可以是人名、机构名、地名、时间、日期、机构名等等。

实体类型识别中,细粒度的类型识别往往是比较困难的。目前细粒度实体类型识别通常是在预训练语言模型的基础上,加入分类网络进行微调得到的。但这种方式在少样本场景下训练得到的实体类型识别模型的识别效果较差。

发明内容

有鉴于此,本申请提供了一种训练实体类型识别模型的方法、实体类型识别方法及装置,以便于提高实体类型识别模型的识别效果。

本申请提供了如下方案:

第一方面,提供了一种训练实体类型识别模型的方法,所述方法包括:

获取包括多个训练样本的训练数据,所述训练样本包括文本样本以及所述文本样本中实体词被标注的实体类型标签;

利用所述训练数据训练实体类型识别模型,所述实体类型识别模型包括预测网络和基于预训练语言模型的编码网络;所述训练包括:

利用文本样本中的实体词生成提示文本,所述提示文本包含所述文本样本中的实体词以及被掩码内容;利用文本样本以及提示文本得到输入文本序列,将所述文本输入序列输入所述编码网络,由所述编码网络提取所述输入文本序列中各元素的特征表示;所述预测网络利用所述各元素的特征表示,预测所述提示文本中被掩码的内容在词表中各词语上的概率分布,依据所述概率分布得到所述文本样本中的实体词对应的实体类型,所述词表包括各实体类型对应的标签词;所述训练目标包括:最小化所述编码网络得到的所述文本样本中的实体词对应的实体类型与所述文本样本中的实体词被标注的实体类型标签之间的差异。

根据本申请实施例中一可实现的方式,所述利用文本样本中的实体词生成提示文本包括:

将所述文本样本中的实体词填入预设的提示模板中的对应槽位,得到提示文本,所述提示模板包含实体词对应的槽位以及被掩码的内容标识。

根据本申请实施例中一可实现的方式,所述预设的提示模板还包括体现所述实体词对应的槽位以及被掩码的内容标识之间语义关系的上下文;或者,

所述预设的提示模板还包括所述实体词对应的槽位以及被掩码的内容标识的参数化的上下文,所述参数化的上下文在所述实体类型识别模型的训练过程中被更新。

根据本申请实施例中一可实现的方式,所述词表还包括各实体类型对应的标签词的同义词;

依据所述概率分布得到所述文本样本中的实体词对应的实体类型包括:

针对各实体类型,分别确定所述提示文本中被掩码的内容在所述词表中各实体类型对应各词语上的概率统计值,将对应概率统计值最大的实体类型确定为所述文本样本中的实体词对应的实体类型。

第二方面,提供了一种实体类型识别的方法,所述方法包括:

获取待识别文本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211563437.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top