[发明专利]知识比对标注方法、装置、电子设备及存储介质在审
申请号: | 202111033485.0 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113672707A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 宗宇;李婷;丁锐 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘乐 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 标注 方法 装置 电子设备 存储 介质 | ||
1.一种知识比对标注方法,其特征在于,所述方法包括:
确定知识库中待比对的知识;
通过关键词提取生成所述知识对应的关键词序列,所述关键词序列由多个权重最高的关键词组成,所述权重表征相应关键词在所述知识中的重要程度;
针对所述知识中的第一知识和第二知识,通过比对两者关键词序列中的关键词进行不同粒度的标注。
2.根据权利要求1所述的方法,其特征在于,所述通过关键词提取生成所述知识对应的关键词序列,包括:
基于自然语言处理技术对所述知识进行关键词提取,确定所述知识对应的第一关键词权重集合,所述关键词权重集合由不同关键词、及其权重组成;
基于三元组抽取技术对所述知识进行关键词提取,确定所述知识对应的第二关键词权重集合;
将所述知识对应的第一关键词权重集合和第二关键词权重集合输入至关键词提取模型中,所述关键词提取模型是以样本知识对应的第一关键词权重集合和第二关键词权重集合作为输入,以对所述样本知识的关键词权重集合的预测结果趋近于其标注结果为目标,对基础网络模型训练得到的;
获取所述关键词提取模型预测输出的所述知识对应的第三关键词权重集合;
根据所述第三关键词权重集合中各关键词的权重,确定所述知识对应的关键词序列。
3.根据权利要求1所述的方法,其特征在于,所述通过比对两者关键词序列中的关键词进行不同粒度的标注,包括:
根据所述第一知识和所述第二知识各自所对应关键词序列中的关键词,计算所述第一知识和所述第二知识间的关键词相似度;
在所述关键词相似度小于对应阈值的情况下,分别对所述第一知识和所述第二知识中相同/不同的关键词进行标注;
在所述关键词相似度不小于对应阈值的情况下,基于三元组抽取技术分别处理所述第一知识和所述第二知识,以获得所述第一知识和所述第二知识各自对应的无向图;
通过比对无向图的节点和边,分别对所述第一知识和所述第二知识中非重叠的节点/边所对应的关键词进行标注。
4.根据权利要求1~3任意一项所述的方法,其特征在于,所述方法还包括:
以悬浮框的形式输出所述第一知识和所述第二知识的标注结果。
5.一种知识比对标注装置,其特征在于,所述装置包括:
知识确定模块,用于确定知识库中待比对的知识;
序列生成模块,用于通过关键词提取生成所述知识对应的关键词序列,所述关键词序列由多个权重最高的关键词组成,所述权重表征相应关键词在所述知识中的重要程度;
粒度标注模块,用于针对所述知识中的第一知识和第二知识,通过比对两者关键词序列中的关键词进行不同粒度的标注。
6.根据权利要求5所述的装置,其特征在于,所述序列生成模块,具体用于:
基于自然语言处理技术对所述知识进行关键词提取,确定所述知识对应的第一关键词权重集合,所述关键词权重集合由不同关键词、及其权重组成;基于三元组抽取技术对所述知识进行关键词提取,确定所述知识对应的第二关键词权重集合;将所述知识对应的第一关键词权重集合和第二关键词权重集合输入至关键词提取模型中,所述关键词提取模型是以样本知识对应的第一关键词权重集合和第二关键词权重集合作为输入,以对所述样本知识的关键词权重集合的预测结果趋近于其标注结果为目标,对基础网络模型训练得到的;获取所述关键词提取模型预测输出的所述知识对应的第三关键词权重集合;根据所述第三关键词权重集合中各关键词的权重,确定所述知识对应的关键词序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111033485.0/1.html,转载请声明来源钻瓜专利网。