[发明专利]实体名称识别方法、装置、设备及存储介质有效
申请号: | 202010024497.6 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111241826B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 李超;吴海山;殷磊;伍德意;程善钿 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F16/36;G06N3/0464;G06N3/045;G06N3/08;G06Q40/00 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 王韬 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 名称 识别 方法 装置 设备 存储 介质 | ||
1.一种实体名称识别方法,其特征在于,所述实体名称识别方法包括:
获取待检测文本,并获取所述待检测文本的多个实体名称;
在预设的知识节点图谱中确定各实体名称对应的实体节点,若根据所述知识节点图谱确定各实体节点之间不存在第一统一实体,则获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征;
对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体;
输出所述第二统一实体的第二统一实体名称;
其中,所述节点权重特征为最终矩阵中的权重值,所述最终矩阵中的权重值是由所述实体节点的邻近节点对应的初始矩阵中的各节点的节点权重值进行优化得到的;
所述互联网词汇嵌入特征为优化词汇向量矩阵,所述优化词汇向量矩阵是基于所述实体节点对应的关联文本构建的词汇关联矩阵和词汇向量矩阵进行比对得到的;
所述目标文本词汇嵌入特征为优化语句向量矩阵,所述优化语句向量矩阵是基于所述实体节点及其对应的关联文本构建的语句关联矩阵和语句向量矩阵进行比对得到的;
其中,所述获取各实体节点的节点权重特征、互联网词汇嵌入特征和目标文本词汇嵌入特征,包括:
对所述实体节点进行特征预测,以获得节点权重特征;
对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征;
对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征。
2.如权利要求1所述的实体名称识别方法,其特征在于,所述对所述实体节点进行特征预测,以获得节点权重特征,包括:
利用onehot为所述实体节点的邻近节点进行初始化,得到各个邻近节点对应的初始矩阵;
通过图谱模型与训练的方式优化初始矩阵,通过两两节点预测关系的结果,优化初始矩阵中各节点的节点权重值,并对整个网络进行预测迭代,获得最终矩阵,所述最终矩阵中的权重值将作为节点权重特征;
所述对所述实体节点进行特征检索,以获得各实体节点对应的关联文本,并对所述关联文本进行特征化处理,以获得互联网词汇嵌入特征,包括:
对所述实体节点进行特征检索,以获得各实体节点对应的关联文本;对所述关联文本进行分词以获得各个文本词汇,分析各个文本词汇之间的关联关系,建立词汇关联矩阵;
在各个文本词汇之间去掉其中任一文本词汇,预测被去掉的文本词汇的前一个文本词汇与后一个文本词汇之间的关联关系,以形成被去掉的文本词汇的文本向量特征,并对文本向量特征进行矩阵化,量化各个文本向量特征;
根据各文本向量特征建立词汇向量矩阵,将所述词汇向量矩阵和所述词汇关联矩阵进行比对,以得到稳定的优化词汇向量矩阵,所述优化词汇向量矩阵为互联网词汇嵌入特征;
所述对所述实体节点和所述关联文本进行语句特征提取,以获取目标文本词汇嵌入特征,包括:
获取所述关联文本中与各个实体节点相关联的语句,提取实体节点在各语句之间的关联关系,建立语句关联矩阵;
在各个语句之间去掉其中任一语句,预测被去掉的语句的前一个语句与后一个语句之间的关联关系,以形成被去掉的语句的语句向量特征,并对语句向量特征进行矩阵化,量化各个语句向量特征;
根据各语句向量特征建立语句向量矩阵,所述语句向量矩阵包括对各语句的预测;将所述语句向量矩阵和所述语句关联矩阵进行比对,以获得优化语句向量矩阵;所述优化语句向量矩阵为目标文本词汇嵌入特征。
3.如权利要求1所述的实体名称识别方法,其特征在于,所述对各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征进行特征提取,并根据特征提取结果确定各实体节点的第二统一实体,包括:
基于各实体节点以及各实体节点的所述节点权重特征、所述互联网词汇嵌入特征和所述目标文本词汇嵌入特征,生成各实体节点的特征值;
根据各实体节点的特征值,分别确定两两实体节点之间的特征相似值;
将数值最大的特征相似值对应的两个目标实体节点确定为第二统一实体,并将两个目标实体节点中的其中任一目标实体节点的实体名称作为所述第二统一实体的第二统一实体名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010024497.6/1.html,转载请声明来源钻瓜专利网。