[发明专利]一种面向特定领域专利实施例的命名实体识别方法有效

申请号：	202110044039.3	申请日：	2021-01-13
公开（公告）号：	CN112765985B	公开（公告）日：	2023-10-27
发明（设计）人：	李岩;高影繁;刘志辉	申请（专利权）人：	中国科学技术信息研究所
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/117;G06F18/214;G06N3/0442
代理公司：	北京市立方律师事务所 11330	代理人：	张筱宁
地址：	100038***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向特定领域专利实施命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供了一种面向特定领域专利实施例的命名实体识别方法，涉及自然语言处理技术领域。该方法包括：获取待识别数据；采用预训练的第一识别模型对待识别数据进行识别，确定与待识别数据对应的命名实体；其中，第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的；样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的；初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。本申请实施例提高了命名实体识别的准确率。

技术领域

本申请涉及自然语言处理技术领域，具体而言，本申请涉及一种面向特定领域专利实施例的命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，NER)，又称作专名识别，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

当前主流的命名实体识别方法为采用神经网络识别模型的识别方法，这些基于深度学习的神经网络把语言看做是数据序列，把这种数据序列转换为标注序列，进而基于标注结果来识别相应的命名实体。

然而，目前的基于深度学习的命名实体识别模型，其模型的训练及评测仅局限于目前已有的样本数据和对应的初始命名实体，存在识别准确率不高的问题。

发明内容

本申请提供了一种面向特定领域专利实施例的命名实体识别方法，可以解决命名实体识别准确率不高的问题。所述技术方案如下：

第一方面，提供了一种面向特定领域专利实施例的命名实体识别方法，该方法包括：

获取待识别数据；

采用预训练的第一识别模型对待识别数据进行识别，确定与待识别数据对应的命名实体；

其中，第一识别模型是基于预设的样本数据和对应的样本命名实体对初始识别模型进行训练得到的；样本命名实体是基于所接收的校正信息对初始命名实体进行校正得到的；初始命名实体是基于预设的第二识别模型对样本数据进行识别得到的。