[发明专利]一种语句相似度计算方法、装置及计算机设备有效
| 申请号: | 201911044280.5 | 申请日: | 2019-10-30 |
| 公开(公告)号: | CN110781686B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 周学阳;井玉欣;陈甜甜;崔妲珅;宋忠森 | 申请(专利权)人: | 普信恒业科技发展(北京)有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/126;G06F16/35;G06F18/22 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王小清 |
| 地址: | 100026 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语句 相似 计算方法 装置 计算机 设备 | ||
本发明提供了一种语句相似度计算方法、装置及计算机设备,将待计算相似度的至少两个语句输入到语义向量计算模型组中,语义向量计算模型组中包含至少两个语义向量计算模型,至少两个语义向量计算模型共用一套模型参数,不同语句对应输入到不同语义向量计算模型中;利用任一个语义向量计算模型,将各自接收到的语句分别编码为预设维度的语义向量并输入到相似度计算模型中;利用相似度计算模型,将任意两个预设维度的语义向量转化为一个二分类向量,并依据二分类向量得到任意两个语句的相似度。语义向量计算模型组为多输入模型,不同语句可以对应输入到不同语义向量计算模型中,无需执行语句拼接的步骤,提高语句相似度计算效率。
技术领域
本发明涉及自然语言处理技术领域,更具体的说,是涉及一种语句相似度计算方法、装置及计算机设备。
背景技术
在自然语言处理的技术领域中,对于两个语句之间计算相似度的应用非常广泛。目前采用的基于模型的语句相似度计算方式中,所采用的模型都是单输入模型,在进行语句相似度计算之前,需要将待计算相似度的语句进行拼接,得到一条拼接语句,将该拼接语句输入到模型中进行语义分析、进而进行相似度的计算。因此,在将某一目标语句与多个候选语句进行相似度计算之前,需要将该目标语句与每一个候选语句都拼接一次,耗时较长,导致语句相似度计算效率低。
基于此,如何提高语句相似度计算效率,成为目前需要解决的技术问题。
发明内容
有鉴于此,本发明提供了一种语句相似度计算方法、装置及计算机设备,以提高语句相似度计算效率。
为实现上述目的,本发明提供如下技术方案:
一种语句相似度计算方法,所述方法包括:
将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中,所述语义向量计算模型组中包含至少两个语义向量计算模型,所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数,其中,不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中;
利用任一个语义向量计算模型,将各自接收到的语句分别编码为预设维度的语义向量;
将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中;
利用所述相似度计算模型,将任意两个预设维度的语义向量转化为一个二分类向量;
利用所述相似度计算模型,依据所述二分类向量得到任意两个语句的相似度。
优选的,所述利用任一个语义向量计算模型,将各自接收到的语句分别编码为预设维度的语义向量的过程包括:
利用任一个语义向量计算模型,将各自接收到的语句中的每个词转化为预设维度的词义向量;
利用任一个语义向量计算模型,将各自接收到的语句中的每个词对应的预设维度的词义向量进行组合,得到各自接收到的语句对应的预设维度的语义向量。
优选的,所述利用所述相似度计算模型,将任意两个预设维度的语义向量转化为一个二分类向量的过程包括:
利用所述相似度计算模型,计算任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量;
利用所述相似度计算模型,将所述任意两个预设维度的语义向量、所述任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量进行向量拼接,得到一个高维分布式向量;
利用所述相似度计算模型,将所述高维分布式向量转化为低维分布式向量;
利用所述相似度计算模型,将所述低维分布式向量转化为二分类向量。
优选的,所述语义向量计算模型组以及相似度计算模型的训练过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普信恒业科技发展(北京)有限公司,未经普信恒业科技发展(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911044280.5/2.html,转载请声明来源钻瓜专利网。





