[发明专利]命名实体识别模型建立方法及命名实体识别方法有效
申请号: | 202011305077.1 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112364655B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 周玉 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李晓辉 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 模型 建立 方法 | ||
本公开提供一种命名实体识别模型建立方法,其包括:获取目标领域的训练文本集;基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集;基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别‑命名实体种类”映射字典;使用所述“文本段落类别‑命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集;以及至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练,获得命名实体识别模型。本公开还提供一种命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。
技术领域
本公开属于自然语言处理/信息化技术领域,本公开尤其涉及一种命名实体识别模型建立方法、命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。
背景技术
各个专业领域的专业文本存在大量的专业技术术语,例如医疗领域,电子病历文本中包含大量医疗专业术语,术语词典作为一个非常重要的资源,对于命名实体的识别有着重要作用。然而,现有技术中的基于词典的方法无法穷举所有的实体。现有技术中的编写匹配规则仅基于出现的语境、上下文编写,无法对未出现的上下文进行规则总结。
在一些专业领域,尤其是一些标注语料稀缺的专业领域,基于现有技术中的方法的命名实体识别的效果较差,容易出现实体识别错误、不准确的问题。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种命名实体识别模型建立方法、命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。
根据本公开的一个方面,提供一种命名实体识别模型建立方法,包括:S1、获取目标领域的训练文本集;S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集;S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典;S4、使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集;以及S5、至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练,获得命名实体识别模型。
根据本公开的至少一个实施方式的命名实体识别模型建立方法,步骤S4中,使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,包括:S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分,获得每个所述训练文本的至少一个类别段落;S42、使用所述“文本段落类别-命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类;以及S43、基于每个训练文本的各个类别段落所对应的命名实体种类,对各个类别段落进行标注,获得每个类别段落的标注序列,进而获得每个训练文本的标注序列集。
根据本公开的至少一个实施方式的命名实体识别模型建立方法,所述段落特征包括字符串特征、格式特征和/或记录模式特征。
根据本公开的至少一个实施方式的命名实体识别模型建立方法,步骤S5中,优选地,使用Bi-LSTM+CRF进行所述命名实体识别模型训练。
根据本公开的至少一个实施方式的命名实体识别模型建立方法,步骤S4中,使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,优选地,使用BIO序列标注算法进行所述标注。
根据本公开的至少一个实施方式的命名实体识别模型建立方法,步骤S4中,获得每个训练文本的标注序列集之后,还对每个训练文本的标注序列集进行修正,获得修正后的标注序列集,以使得步骤S5中至少基于所述训练文本集的所有训练文本的修正后的标注序列集进行所述命名实体识别模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011305077.1/2.html,转载请声明来源钻瓜专利网。