[发明专利]一种面向特定领域专利实施例的命名实体识别方法有效
申请号: | 202110044039.3 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112765985B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 李岩;高影繁;刘志辉 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/117;G06F18/214;G06N3/0442 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 特定 领域 专利 实施 命名 实体 识别 方法 | ||
本申请实施例提供了一种面向特定领域专利实施例的命名实体识别方法,涉及自然语言处理技术领域。该方法包括:获取待识别数据;采用预训练的第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体;其中,第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。本申请实施例提高了命名实体识别的准确率。
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种面向特定领域专利实施例的命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER),又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。
当前主流的命名实体识别方法为采用神经网络识别模型的识别方法,这些基于深度学习的神经网络把语言看做是数据序列,把这种数据序列转换为标注序列,进而基于标注结果来识别相应的命名实体。
然而,目前的基于深度学习的命名实体识别模型,其模型的训练及评测仅局限于目前已有的样本数据和对应的初始命名实体,存在识别准确率不高的问题。
发明内容
本申请提供了一种面向特定领域专利实施例的命名实体识别方法,可以解决命名实体识别准确率不高的问题。所述技术方案如下:
第一方面,提供了一种面向特定领域专利实施例的命名实体识别方法,该方法包括:
获取待识别数据;
采用预训练的第一识别模型对待识别数据进行识别,确定与待识别数据对应的命名实体;
其中,第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的;样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的;初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。
在一个可能的实现方式中,上述样本命名实体基于如下方式得到:
向至少一个终端发送初始命名实体和样本数据;
接收至少一个终端返回的校正信息;校正信息是终端基于样本数据针对初始命名实体生成的;
基于校正信息对初始命名实体进行校正,生成样本命名实体。
在另一个可能的实现方式中,该第二识别模型基于如下方式得到:
获取样本数据中的样本数据子集;其中,样本数据子集设置有对应的初始命名实体子集;
基于样本数据子集和初始命名实体子集对样本识别模型进行训练,生成第二识别模型。
在另一个可能的实现方式中,基于样本数据子集和初始命名实体子集对样本识别模型进行训练,生成第二识别模型,包括:
将样本数据子集输入到样本识别模型,得到样本识别模型输出的第一实时标签;
基于第一实时标签和初始命名实体子集,对样本识别模型进行训练,生成第二识别模型。
在又一个可能的实现方式中,上述第一识别模型通过如下方式训练得到:
将样本数据输入到初始识别模型,得到初始识别模型输出的第二实时标签;
基于第二实时标签和样本命名实体对初始识别模型进行训练,生成第一识别模型。
在又一个可能的实现方式中,对待识别数据进行识别,确定与待识别数据对应的命名实体,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110044039.3/2.html,转载请声明来源钻瓜专利网。