[发明专利]命名实体识别方法、模型训练方法、设备及存储介质在审
申请号: | 202210344549.7 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114662494A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 蒋勇;王涛;谢朋峻 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/36 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 柴艳波;刘戈 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 模型 训练 设备 存储 介质 | ||
本申请实施例提供一种命名实体识别方法、模型训练方法、设备及存储介质。其中,方法包括如下的步骤:获取待识别文本;将待识别文本输入至训练过的命名实体识别模型中,得到待识别文本的识别结果;其中,命名实体识别模型的训练过程包括:将第一样本文本、第二样本文本以及第三样本文本输入至命名实体识别模型中,得到第一样本文本、第二样本文本以及第三样本文本各自的识别结果;第二样本文本与第三样本文本语义相似;根据第一样本文本的识别结果与其期望识别结果之间的第一差异以及第二样本文本的识别结果与第三样本文本的识别结果之间的第二差异,对命名实体识别模型进行优化。本申请实施例提供的方案模型训练成本低。
技术领域
本申请涉及计算机技术领域,尤其涉及一种命名实体识别方法、模型训练方法、设备及存储介质。
背景技术
随着大数据技术的日益发展,基于机器学习的自然语言理解技术得到了广泛应用。命名实体识别(Named Entity Recognition,简称NER)在各种自然语言理解应用中有着相当重要的作用。命名实体识别是信息抽取的一种形式,它的主要任务是将文本中的词分为人名、地名、组织名等实体类型。该任务对于搜索引擎、问答系统、机器翻译有相当重要的作用,也是更加复杂的信息抽取任务的基础。
目前,基于机器学习的命名实体识别模型的训练是需要大量的标注数据的。这些标注数据通常是通过人工标注得到的。可见,现有的命名实体识别模型的训练成本较大。
发明内容
鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的命名实体识别方法、模型训练方法、设备及存储介质。
于是,在本申请的一个实施例中,提供了一种命名实体识别方法,其中,包括:
获取待识别文本;
将所述待识别文本输入至训练过的命名实体识别模型中,得到所述待识别文本的识别结果;其中,所述命名实体识别模型的训练过程包括:
将第一样本文本、第二样本文本以及第三样本文本输入至所述命名实体识别模型中,得到所述第一样本文本、所述第二样本文本以及所述第三样本文本各自的识别结果;所述第二样本文本与所述第三样本文本语义相似;
根据所述第一样本文本的识别结果与其期望识别结果之间的第一差异以及所述第二样本文本的识别结果与所述第三样本文本的识别结果之间的第二差异,对所述命名实体识别模型进行优化。
在本申请的又一实施例中,提供了一种模型训练方法,其中,包括:
将第一样本文本、第二样本文本以及第三样本文本输入至命名实体识别模型中,得到所述第一样本文本、所述第二样本文本以及所述第三样本文本各自的识别结果;所述第二样本文本与所述第三样本文本语义相似;
根据所述第一样本文本的识别结果与其期望识别结果之间的第一差异以及所述第二样本文本的识别结果与所述第三样本文本的识别结果之间的第二差异,对所述命名实体识别模型进行优化。
在本申请的又一实施例中,提供了一种搜索方法,其中,包括:
获取用户输入的查询文本;
将所述查询文本输入至训练过的命名实体识别模型中,得到所述查询文本对应的标签序列;
根据所述标签序列以及所述查询文本,确定查询结果;
其中,所述命名实体识别模型的训练过程包括:
将第一样本文本、第二样本文本以及第三样本文本输入至所述命名实体识别模型中,得到所述第一样本文本、所述第二样本文本以及所述第三样本文本各自的识别结果;所述第二样本文本与所述第三样本文本语义相似;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210344549.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种翻译模型压缩方法、翻译方法及相关装置
- 下一篇:故障报文可视化方法及装置