[发明专利]知识比对标注方法、装置、电子设备及存储介质在审
申请号: | 202111033485.0 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113672707A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 宗宇;李婷;丁锐 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘乐 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 标注 方法 装置 电子设备 存储 介质 | ||
本发明提供一种知识比对标注方法、装置、电子设备及存储介质,可应用于人工智能领域或金融领域,对于知识库中待比对的知识,通过关键词提取能够确定该知识的关键词序列,该关键词序列由多个权重最高的关键词组成,由于权重能够表征相应关键词在知识中的重要程度,因此关键词序列最大程度表示知识。对此,对于待比对的任意两条知识来说,通过比对两者关键词序列中的关键词可以完成不同粒度的标注。因此,基于本发明能够为用户提供合适粒度、直观、便捷的知识比对功能,提高用户对知识的阅览体验。
技术领域
本发明涉及人工智能技术领域,更具体地说,涉及一种知识比对标注方法、装置、电子设备及存储介质。
背景技术
在知识库系统中存在海量知识,知识间存在这相似点和不同点,在进行知识查询时,如何快速区分出两个或者多个知识间的不同,更方便我们进行知识获取。
目前,传统的知识比对一般是仅基于文本字符的比对,将不同的字符标注出来。比对内容相差很大和内容相近的知识时,并不能进行合适粒度的标注。常会出现内容相差很大的知识,只确定大片的内容差异,无法精炼不同点,还需要再次比较,而内容相近的知识,标注出来的不同点不能恰到好处。
发明内容
有鉴于此,为解决上述问题,本发明提供一种知识比对标注方法、装置、电子设备及存储介质,技术方案如下:
一种知识比对标注方法,所述方法包括:
确定知识库中待比对的知识;
通过关键词提取生成所述知识对应的关键词序列,所述关键词序列由多个权重最高的关键词组成,所述权重表征相应关键词在所述知识中的重要程度;
针对所述知识中的第一知识和第二知识,通过比对两者关键词序列中的关键词进行不同粒度的标注。
优选的,所述通过关键词提取生成所述知识对应的关键词序列,包括:
基于自然语言处理技术对所述知识进行关键词提取,确定所述知识对应的第一关键词权重集合,所述关键词权重集合由不同关键词、及其权重组成;
基于三元组抽取技术对所述知识进行关键词提取,确定所述知识对应的第二关键词权重集合;
将所述知识对应的第一关键词权重集合和第二关键词权重集合输入至关键词提取模型中,所述关键词提取模型是以样本知识对应的第一关键词权重集合和第二关键词权重集合作为输入,以对所述样本知识的关键词权重集合的预测结果趋近于其标注结果为目标,对基础网络模型训练得到的;
获取所述关键词提取模型预测输出的所述知识对应的第三关键词权重集合;
根据所述第三关键词权重集合中各关键词的权重,确定所述知识对应的关键词序列。
优选的,所述通过比对两者关键词序列中的关键词进行不同粒度的标注,包括:
根据所述第一知识和所述第二知识各自所对应关键词序列中的关键词,计算所述第一知识和所述第二知识间的关键词相似度;
在所述关键词相似度小于对应阈值的情况下,分别对所述第一知识和所述第二知识中相同/不同的关键词进行标注;
在所述关键词相似度不小于对应阈值的情况下,基于三元组抽取技术分别处理所述第一知识和所述第二知识,以获得所述第一知识和所述第二知识各自对应的无向图;
通过比对无向图的节点和边,分别对所述第一知识和所述第二知识中非重叠的节点/边所对应的关键词进行标注。
优选的,其特征在于,所述方法还包括:
以悬浮框的形式输出所述第一知识和所述第二知识的标注结果。
一种知识比对标注装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111033485.0/2.html,转载请声明来源钻瓜专利网。