[发明专利]嵌套命名实体识别方法及系统、电子设备及可读介质在审
| 申请号: | 201911291456.7 | 申请日: | 2019-12-16 |
| 公开(公告)号: | CN110956042A | 公开(公告)日: | 2020-04-03 |
| 发明(设计)人: | 温秀秀;刘佩云;郭橙;潘博文;高原原 | 申请(专利权)人: | 中国电子科技集团公司信息科学研究院 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295 |
| 代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
| 地址: | 100086 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 嵌套 命名 实体 识别 方法 系统 电子设备 可读 介质 | ||
本发明的嵌套命名实体识别方法、系统、电子设备及可读介质,包括基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,标记集合包括文本及对应的命名实体,并且至少一个文本对应多个命名实体;基于预设的聚类方法,将标记集合根据各命名实体进行聚类获得簇集合,簇集合包括文本及与该文本唯一对应的命名实体;基于预设的自适应数据增强的命名实体识别模型,分别识别各簇集合中的命名实体。将嵌套命名实体识别问题转化为非嵌套命名识别问题,降低命名实体嵌套对识别效果的影响;根据训练效果逐步提升数据增强程度,将数据增强使用强度控制在最佳水平,提升训练效果,以适应样本不足条件下的嵌套命名实体识别任务。
技术领域
本发明属于命名实体识别技术领域,具体涉及一种嵌套命名实体识别方法、一种嵌套命名实体识别系统、一种电子设备及一种计算机可读存储介质。
背景技术
命名实体识别(NER,Name Entity Recognition)是自然语言处理的基础研究内容之一,其任务是识别文本中的语言块。命名实体识别在实际应用中经常要面对命名实体嵌套和训练样本不足的问题。
命名实体嵌套增使得文字与实体标签之间无法建立一对一关系,例如“白求恩医学院”是一个组织机构名称实体,而“白求恩”是人名实体,因此在文本标记过程中,“白求恩”就存在两个标签。多标签问题会增加命名实体识别的复杂度,使得现有成熟命名实体识别方法无法直接使用。
训练样本不足是实体识别任务面临的常见问题。专业领域命名实体识别训练样本数据集构建是一个耗时的过程,需要具备专业知识的人进行数据标注,因此难以形成大型数据集。数据增强是解决训练样本不足的重要方法,通过自动化方法在原有数据集的基础构造新的样本,从而增强模型训练效果。因此研究训练样本不足情况下的嵌套命名实体识别对于命名实体识别的实际应用具有重要意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提供一种嵌套命名实体识别方法、一种嵌套命名实体识别系统、一种电子设备及一种计算机可读存储介质。
本发明的第一个方面提供一种嵌套命名实体识别方法,包括以下步骤:
基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,所述标记集合包括文本及对应的命名实体,并且,至少一个所述文本对应多个所述命名实体;
基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,所述簇集合包括文本及与该文本唯一对应的命名实体;
基于预设的自适应数据增强的命名实体识别模型,分别识别各所述簇集合中的命名实体。
可选地,所述基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,包括:
预先设定聚类结果度量函数;
基于所述聚类结果度量函数,采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合。
可选地,所述预先设定聚类结果度量函数,包括:
假设语料库为[w1,w2,…,wn],其中wi表示语料库的第i个文本,用Ti表示wi的标记集合,ta表示命名实体a,建立命名实体a对于第i个字符的示性函数如下关系式(1):
命名实体ta与命名实体tb的相关度定义如下关系式(2):
Ea,b=∑所有语料库∑if(ta,i)f(tb,i) (2);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911291456.7/2.html,转载请声明来源钻瓜专利网。





