[发明专利]命名实体的识别方法、电子设备及计算机存储介质在审
申请号: | 201910964988.6 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110705302A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 柳燕煌 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 11276 北京市浩天知识产权代理事务所(普通合伙) | 代理人: | 刘兰兰 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 原始文本 分词 实体识别 上下文信息 语义 命名实体 词向量 语义词 计算机存储介质 电子设备 结果识别 信息量 | ||
1.一种命名实体的识别方法,包括:
获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量;
根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量;
确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果;
根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体。
2.根据权利要求1所述的方法,其中,所述获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量包括:
针对所述原始文本执行切字处理,以获得所述原始文本中包含的各个文字以及各个文字的初始字向量;
根据分词词典对所述原始文本执行分词处理,以获得所述原始文本中包含的各个分词以及各个分词的初始词向量。
3.根据权利要求2所述的方法,其中,所述根据所述第一实体识别结果以及所述第二实体识别结果识别所述原始文本中包含的命名实体之后,进一步包括:当识别出的命名实体未存储于所述分词词典时,将识别出的命名实体添加到所述分词词典中。
4.根据权利要求1-3任一所述的方法,其中,所述方法应用于电子书应用,则所述获取原始文本中包含的各个文字以及各个文字的初始字向量,获取所述原始文本中包含的各个分词以及各个分词的初始词向量包括:
预先获取电子书应用的书城数据库中包含的各个电子书的文本内容,根据所述各个电子书的文本内容生成原始语料数据;
通过第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的字向量词典,根据所述字向量词典确定所述各个文字的初始字向量;
通过所述第一向量模型和/或第二向量模型,确定与所述原始语料数据相对应的词向量词典,根据所述词向量词典确定所述各个分词的初始词向量。
5.根据权利要求1-4任一所述的方法,其中,所述根据所述各个文字的初始字向量以及各个文字在所述原始文本中的上下文信息,确定各个文字的语义字向量;以及,根据所述各个分词的初始词向量以及各个分词在所述原始文本中的上下文信息,确定各个分词的语义词向量包括:
根据预设训练模型,确定各个文字的初始字向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个文字的语义字向量;以及,
根据所述预设训练模型,确定各个分词的初始词向量与所述原始文本中的上下文信息之间的语义关联关系,以得到各个分词的语义词向量;其中,所述语义字向量以及所述语义词向量为融合上下文信息后得到的向量。
6.根据权利要求5所述的方法,其中,所述预设训练模型包括:卷积神经网络模型、循环神经网络模型、和/或BERT预训练模型。
7.根据权利要求1-6任一所述的方法,其中,所述确定与所述各个文字的语义字向量相对应的第一实体识别结果,以及与所述各个分词的语义词向量相对应的第二实体识别结果包括:
将所述各个文字的语义字向量输入分词标记模型,以得到与所述各个文字的语义字向量相对应的第一实体识别结果;以及,
将所述分词的语义词向量输入所述分词标记模型,以得到与所述各个分词的语义词向量相对应的第二实体识别结果。
8.根据权利要求7所述的方法,其中,所述分词标记模型包括:条件随机场模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910964988.6/1.html,转载请声明来源钻瓜专利网。