[发明专利]命名实体识别方法、模型训练方法、设备及存储介质在审
申请号: | 202210344549.7 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114662494A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 蒋勇;王涛;谢朋峻 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/36 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 柴艳波;刘戈 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 模型 训练 设备 存储 介质 | ||
1.一种命名实体识别方法,其中,包括:
获取待识别文本;
将所述待识别文本输入至训练过的命名实体识别模型中,得到所述待识别文本的识别结果;其中,所述命名实体识别模型的训练过程包括:
将第一样本文本、第二样本文本以及第三样本文本输入至所述命名实体识别模型中,得到所述第一样本文本、所述第二样本文本以及所述第三样本文本各自的识别结果;所述第二样本文本与所述第三样本文本语义相似;
根据所述第一样本文本的识别结果与其期望识别结果之间的第一差异以及所述第二样本文本的识别结果与所述第三样本文本的识别结果之间的第二差异,对所述命名实体识别模型进行优化。
2.根据权利要求1所述的方法,其中,所述第二样本文本的识别结果包括:所述第二样本文本对应的多个第一可能标签序列以及所述第二样本文本属于各第一可能标签序列的概率;所述第三样本文本的识别结果包括:所述第三样本文本对应的多个第二可能标签序列以及所述第三样本文本属于各第二可能标签序列的概率;所述方法,还包括:
根据所述第二样本文本的识别结果以及所述第三样本文本的识别结果,确定可能标签序列对;
根据所述可能标签序列对中第一可能标签序列和第二可能标签序列,确定所述可能标签序列对对应的一致性程度;
根据所述可能标签序列对对应的一致性程度,确定所述第二样本文本的识别结果与所述第三样本文本的识别结果之间的第二差异。
3.根据权利要求2所述的方法,其中,所述可能标签序列对为多个;
根据所述可能标签序列对对应的一致性程度,确定所述第二样本文本的识别结果与所述第三样本文本的识别结果之间的第二差异,包括:
根据所述第二样本文本属于第一可能标签序列对中第一可能标签序列的概率以及所述第三样本文本属于所述第一可能标签序列对中第二可能标签序列的概率的乘积,确定所述第一可能标签序列对对应的概率;多个所述可能标签序列对中包括所述第一可能标签序列对;
根据多个所述可能标签序列对各自对应的概率以及所述多个可能标签序列对各自对应的一致性程度,确定所述第二差异。
4.根据权利要求3所述的方法,其中,根据多个所述可能标签序列对各自对应的概率以及所述多个可能标签序列对各自对应的一致性程度,确定所述第二差异,包括:
根据所述多个可能标签序列对各自对应的概率以及所述多个可能标签序列对各自对应的一致性程度,确定所述多个可能标签序列对各自对应的一致性程度在所述多个可能标签序列对对应的概率分布下的期望值;
根据所述期望值,确定所述第二差异;
其中,所述期望值越大,所述第二差异越小。
5.根据权利要求2所述的方法,其中,根据所述第二样本文本的识别结果以及所述第三样本文本的识别结果,确定可能标签序列对,包括:
根据所述第二样本文本属于各第一可能标签序列的概率,从所述多个第一可能标签序列中确定出所述第二样本文本所属的目标第一可能标签序列;
根据所述第三样本文本属于各第二可能标签序列的概率,从所述多个第二可能标签序列中确定出所述第三样本文本所属的目标第二可能标签序列;
将所述目标第一可能标签序列和所述目标第二可能标签序列组成所述可能标签序列对。
6.根据权利要求2至5中任一项所述的方法,其中,根据所述可能标签序列对中第一可能标签序列和第二可能标签序列,确定所述可能标签序列对对应的一致性程度,包括:
确定所述第一可能标签序列对中第一可能标签序列对应的第一实体标签集合和第二可能标签序列对应的第二实体标签集合;
根据所述第一实体标签集合与所述第二实体标签集合的重叠情况,确定所述第一可能标签序列对对应的一致性程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210344549.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种翻译模型压缩方法、翻译方法及相关装置
- 下一篇:故障报文可视化方法及装置