[发明专利]命名实体识别方法、装置、介质以及设备有效
申请号: | 201811038043.3 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109145303B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 杨韬 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 装置 介质 以及 设备 | ||
本申请实施例公开了一种命名实体识别方法、装置、设备以及介质,其中,该方法包括:获取待识别的文本;对该待识别的文本进行分词处理得到分词序列;将该分词序列输入至命名实体识别模型,获取该命名实体识别模型输出的各个分词对应的命名实体属性标识;进而,根据各个分词对应的命名实体属性标识,确定待识别的文本中的命名实体。该方法中采用的命名实体识别模型是基于网络结构简单、网络参数较少的前馈神经网络构建的,保证该模型便于维护和更新;另外,该模型基于能够充分全面地表达分词语义信息的多维分词特征,确定各分词对应的命名实体属性标识,保证了命名实体识别的准确率。此外,本申请还提供了一种命名实体识别模型的训练方法及装置。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种命名实体识别方法、 装置、设备以及计算机可读存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又作为“专名识别”, 是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、作品 名词、特定意义的网络词汇、其他专有名词等。命名实体识别在信息提取、 问答系统、句法分析、机器翻译等应用领域中发挥重要作用。
目前常用的命名实体识别的解决方案是,采用命名实体识别模型对文本 进行识别以识别出其中的命名实体,其中,该命名实体识别模型包括双向长 短时记忆网络和条件随机场,即该模型为BiLSTM+CRF模型。由于该命名实 体识别模型中各长短时记忆网络LSTM均包括三种门结构,门结构的网络结 构复杂,网络参数众多,若想要模型取得较好的识别结果,就需要依赖大规 模的训练样本,模型的训练也需要消耗太多的训练时间,难以进行快速试验以投入实际应用。
发明内容
本申请实施例提供了一种命名实体识别方法、装置、介质以及设备,能 够基于网络结构简单、网络参数较少的命名实体识别模型,准确地识别出文 本中的命名实体。
有鉴于此,本申请第一方面提供了一种命名实体识别方法,所述方法包 括:
获取待识别的文本;
对所述待识别的文本进行分词处理得到分词序列;
将所述分词序列输入命名实体识别模型,获取所述命名实体识别模型输 出的各个分词对应的命名实体属性标识;其中,所述命名实体识别模型用于 根据分词序列中各分词自身及其上下文各部分的多维分词特征,通过前馈神 经网络识别得到各分词对应的命名实体属性标识,所述多维分词特征包括一元组分词和多元组分词;
根据所述分词序列中各分词对应的命名实体属性标识,确定所述待识别 的文本中的命名实体。
本申请第二方面提供了一种命名实体识别模型的训练方法,所述方法包 括:
获取多个样本数据,每个所述样本数据包括样本文本及其多个分词标注 数据,所述分词标注数据包括从所述样本文本中分出的分词及其在所述样本 文本中的真实命名实体属性标识;
根据前馈神经网络结构构建命名实体识别初始模型;
利用所述多个样本数据对所述命名实体识别初始模型进行训练,以训练 得到满足训练结束条件的命名实体识别模型,所述命名实体识别初始模型用 于根据所述样本数据中各分词自身及其上下文各部分的多维分词特征,通过 前馈神经网络识别得到各分词对应的预测命名实体属性标识,所述多维分词 特征包括一元组分词和多元组分词。
本申请第三方面提供了一种命名实体识别装置,所述装置包括:
获取模块,用于获取待识别的文本;
分词模块,用于对所述待识别的文本进行分词处理得到分词序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811038043.3/2.html,转载请声明来源钻瓜专利网。