[发明专利]命名实体识别模型建立方法及命名实体识别方法有效
| 申请号: | 202011305077.1 | 申请日: | 2020-11-20 |
| 公开(公告)号: | CN112364655B | 公开(公告)日: | 2021-08-24 |
| 发明(设计)人: | 周玉 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李晓辉 |
| 地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名 实体 识别 模型 建立 方法 | ||
1.一种命名实体识别模型建立方法,其特征在于,包括:
S1、获取目标领域的训练文本集;
S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集;
S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典;
S4、使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集;以及
S5、至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练,获得命名实体识别模型;
其中,步骤S4中,使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,包括:
S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分,获得每个所述训练文本的至少一个类别段落;
S42、使用所述“文本段落类别-命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类;以及
S43、基于每个训练文本的各个类别段落所对应的命名实体种类,对各个类别段落进行标注,获得每个类别段落的标注序列,进而获得每个训练文本的标注序列集。
2.根据权利要求1所述的命名实体识别模型建立方法,其特征在于,所述段落特征包括字符串特征、格式特征和/或记录模式特征。
3.一种命名实体识别方法,使用权利要求1或2所述的方法建立的命名实体识别模型进行命名实体识别,其特征在于,包括:
SS1、对输入的目标领域的目标文本进行段落类别划分,获得目标文本的至少一个类别段落;确定所述目标文本的各个类别段落所对应的命名实体种类;以及
SS2、基于各个类别段落所对应的命名实体种类,使用所述命名实体识别模型识别所述目标文本中的命名实体。
4.一种命名实体识别方法,使用权利要求1至3中任一项所述的方法建立的命名实体识别模型进行命名实体识别,其特征在于,包括:
SZ1、使用所述命名实体识别模型对输入的目标领域的目标文本进行命名实体识别,获得初步识别结果;对所述目标文本进行段落类别划分,获得所述目标文本的至少一个类别段落,确定所述目标文本的各个类别段落所对应的命名实体种类;以及
SZ2、基于所述目标文本的各个类别段落所对应的命名实体种类,对所述初步识别结果进行校正。
5.一种命名实体识别模型建立装置,其特征在于,包括:
映射字典构建模块,所述映射字典构建模块获取目标领域的训练文本集,基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集,基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典;
标注模块,所述标注模块使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集;以及
模型训练模块,所述模型训练模块至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练,获得命名实体识别模型;
其中,所述标注模块使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,包括:
基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分,获得每个所述训练文本的至少一个类别段落;
使用所述“文本段落类别-命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类;以及
基于每个训练文本的各个类别段落所对应的命名实体种类,对各个类别段落进行标注,获得每个类别段落的标注序列,进而获得每个训练文本的标注序列集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011305077.1/1.html,转载请声明来源钻瓜专利网。





