[发明专利]命名实体识别方法、装置、电子设备及存储介质在审
| 申请号: | 202011159598.0 | 申请日: | 2020-10-26 |
| 公开(公告)号: | CN113761923A | 公开(公告)日: | 2021-12-07 |
| 发明(设计)人: | 金鑫 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06K9/62;G06N3/04 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 孙蕾 |
| 地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名 实体 识别 方法 装置 电子设备 存储 介质 | ||
1.一种命名实体识别方法,包括:
获取待识别文本;
对所述待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量;
将所述目标全局特征向量和所述目标局部特征向量进行拼接,得到目标特征向量;以及
利用命名实体识别模型处理所述目标特征向量,得到用于表征所述待识别文本的实体类别识别结果。
2.根据权利要求1所述的方法,其中,所述目标局部特征向量包括第一句子级特征向量和第二句子级特征向量;
所述对所述待识别文本进行特征提取,得到目标局部特征向量,包括:
获取字典,其中,所述字典包括多个实体和与每个所述实体对应的实体类别,所述实体类别包括多种;
从所述字典中查找与所述待识别文本中的每个词组元素所匹配的实体;
根据预设匹配规则,确定每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度;
根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到所述第一句子级特征向量;以及
利用预设转换规则处理所述待识别文本得到所述第二句子级特征向量,其中,所述预设转换规则用于将所述待识别文本中的大写字母、小写字母、数字和标点分别转换为对应的预设形式。
3.根据权利要求2所述的方法,其中,所述根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到所述第一句子级特征向量,包括:
根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到与每个所述词组元素对应的向量,其中,所述向量中的每个分量用于表征所述词组元素与对应的所述实体类别的匹配程度;以及
根据所述待识别文本中的与每个所述词组元素对应的向量,得到所述第一句子级特征向量。
4.根据权利要求2所述的方法,其中,所述目标局部特征向量还包括字符级特征向量;
所述对所述待识别文本进行特征提取,得到目标局部特征向量,包括:
利用嵌入字符提取模型处理所述待识别文本,得到嵌入字符,其中,所述嵌入字符提取模型是基于第一神经网络模型训练生成的;以及
利用字符级特征提取模型处理所述嵌入字符,得到所述字符级特征向量,其中,所述字符级特征提取模型是基于卷积神经网络模型训练生成的。
5.根据权利要求1所述的方法,其中,所述目标全局特征向量包括单词级特征向量;
所述对所述待识别文本进行特征提取,得到目标全局特征向量,包括:
利用单词级特征提取模型处理所述待识别文本,得到所述单词级特征向量,其中,所述单词级特征提取模型是基于第二神经网络模型训练生成的。
6.根据权利要求1所述的方法,其中,所述命名实体识别模型是基于双向长短期记忆神经网络模型训练生成的,包括:
获取训练样本集,其中,所述训练样本集包括多个训练文本和与每个所述训练文本对应的真实标注信息;
对每个所述训练文本进行特征提取得到样本全局特征向量和样本局部特征向量;
将与每个所述训练文本对应的样本全局特征向量和样本局部特征向量进行拼接,得到与每个所述训练文本对应的样本特征向量;以及
利用多个所述样本特征向量和多个所述真实标注信息对所述双向长短期记忆神经网络模型进行训练,得到所述命名实体识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011159598.0/1.html,转载请声明来源钻瓜专利网。





